Le 30 Novembre 2020, DeepMind et son outil d’intelligence artificiel AlphaFold 2 remportent pour la deuxième fois la compétition bi-annuelle CASP (Critical Assessment of protein Structure Prediction) d’évaluation critique de la prédiction de la structure des protéines. Cette année, elle la remporte avec une précision saluée par les organisateurs et une prédiction supérieure à 90%, c'est-à-dire la limite à partir de laquelle la prédiction est considérée comme réellement utilisable car équivalente à des méthodes expérimentales.
Cette nouvelle pourrait être révolutionnaire dans le domaine de l’industrie pharmaceutique et de la santé en général.
La problématique du point de vue de la santé
Le développement d’un médicament dure environ 10 ans. Lors de ce développement, la prévision de la structure des protéines est un des objectifs très importants mais c’est un processus long et coûteux. En effet, sur approximativement 150 millions de protéines identifiées, la structure est connue pour environ 150 000 d’entre elles.
Dans le corps, les protéines se replient dans une structure tridimensionnelle intimement liée à leurs fonctions. La structure 3D régit les interactions protéines-protéines (entre une protéine et sa cible). Cette liaison est possible grâce à leurs structures complémentaires.
La liaison à cette cible va entraîner une réponse de l’organisme, la connaissance de la structure est donc un atout majeur pour une compréhension de leurs propriétés fonctionnelles au niveau moléculaire.
En conséquence, l’interaction du médicament avec sa cible moléculaire va déclencher une cascade d’évènements qui aboutira à un effet pharmacologique (que ce soit un effet recherché ou un effet indésirable).
La protéine est composée de différents acides aminés liés entre eux. Chaque acide aminé de la chaîne peut être considéré comme ayant certaines caractéristiques chimiques. Ces séquences d’acides aminés interagissent entre elles, et ces interactions conduisent, dans la cellule, à une structure tridimensionnelle bien définie.
Selon le paradoxe de Levinthal, en prenant en compte les différentes conformations possibles de la protéine, il faudrait pour trouver la bonne structure d’une protéine par méthode aléatoire, un temps plus important que l’âge de l’univers lui-même.
Pour résoudre ce problème, il n’y a pas de solutions mathématiques exactes.
Différentes méthodes expérimentales sont utilisées pour trouver la structure 3D de la protéine comme la cristallographie aux rayons X et la résonance magnétique nucléaire. Cependant, ce sont des méthodes lourdes et certaines protéines n’y répondent pas. Une autre méthode de plus en plus utilisée est la bio-informatique mais la précision varie selon la méthode.
Dans ce contexte, DeepMind a utilisé l’intelligence artificielle pour apporter une solution à ce problème.
La technologie derrière AlphaFold 2
DeepMind est une entreprise britannique spécialisée dans l’intelligence artificielle rachetée en 2014 par Google pour 628 millions de dollars.
L'objectif de DeepMind Technologies est de combiner “les meilleures techniques de Machine Learning et de la neuroscience des systèmes pour construire de puissants algorithmes d'apprentissage à usage général”.
Elle a mis au point un outil de prédiction de la structure 3D des protéines appelé “AlphaFold”. Cet outil utilise des méthodes d’apprentissage profond appelé “Deep Learning”.
Plus précisément, le “Deep Learning” ou apprentissage profond est une sous-discipline du Machine Learning. Le Deep Learning est une méthode algorithmique à base de réseaux de neurones permettant d'apprendre une tâche en extrayant des corrélations entre les données d'entrée (séquence d’acides aminés de la protéine, contraintes physiques et chimiques) et les résultats attendus (la structure 3D de la protéine). La force du Deep Learning est de pouvoir extraire des corrélations qui échappent à l'analyse humaine.
Ainsi, avant AlphaFold, DeepMind a construit un programme de Machine Learning ayant battu le champion du monde de Go (un jeu dont le nombre de combinaisons possibles dépasse de très loin les possibilités de calculs des ordinateurs, ce qui exclut la possibilité de recherche exhaustive des possibilités). Ce sont des principes similaires qui ont été appliqués pour créer AlphaFold.
La précision de cet outil s’améliore au fur et à mesure que de nouvelles données sont injectées dans l'algorithme. DeepMind a entraîné cet algorithme sur des données publiquement disponibles d’environ 150 000 structures protéiques, provenant de la banque de données des protéines, ainsi que de grandes bases de données contenant des séquences protéiques de structure inconnue.
L'algorithme permet, grâce à sa puissance, de trouver des structures en quelques jours alors que les procédés classiques expérimentaux peuvent prendre plusieurs années.
Dans le futur, cet outil pourrait permettre d’explorer la fonction de nouvelles protéines dont la structure reste inconnue à ce jour et de découvrir de nouveaux traitements, mais aussi d'accélérer le processus du développement de médicaments. La prévision de la structure des protéines pourrait également contribuer à la compréhension des maladies, par exemple en aidant à identifier les protéines qui ont mal fonctionné, ou à comprendre la façon dont elles interagissent entre elles.
Nina Temam
Comments