Parallèles étonnants entre le langage et la biologie : l'IA utilise des modèles linguistiques pour développer des protéines
Les chatbots sont de véritables artistes du texte
L'intelligence artificielle (IA) a de multiples domaines d'application dans la création automatisée de contenus, comme par exemple des contributions sous forme de texte, d'image, d'audio ou de vidéo. L'IA a récemment acquis une notoriété mondiale grâce au chatbot « Chat-GPT », qui recèle un potentiel étonnant pour la création de textes. Pour cela, le chatbot utilise ce que l'on appelle des modèles linguistiques, à l'aide desquels l'IA apprend à construire des textes logiques, en respectant les règles grammaticales, et même à nuancer les textes en fonction de leur objectif.
De la linguistique à la biologie
Un nouveau domaine d'application pour de tels modèles linguistiques vient des sciences de la vie. Des chercheurs ont déjà réussi à créer de nouvelles molécules de protéines à l'aide de « grands modèles linguistiques » (en anglais « Large Language Models » ou « LLM »). Les protéines exercent de nombreuses fonctions dans le corps humain : Elles combattent les agents pathogènes, transportent l'oxygène dans le sang, forment nos cheveux et nos ongles et régulent nos mouvements musculaires - parmi de nombreuses autres fonctions.
Pour la génération assistée par ordinateur de protéines, on utilise des parallèles entre la structure des langues humaines et la structure des protéines : Alors que les phrases sont formées par des mots, les protéines sont également constituées d'éléments individuels appelés « acides aminés ». Ils sont alignés dans des séquences précises, ce qui leur confère une fonction bien déterminée qu'ils peuvent exercer dans le corps.
De nouvelles propriétés apparaissent avec des éléments connus
Depuis longtemps déjà, des algorithmes informatiques peuvent prédire la fonction de protéines existantes sur la base de leurs séquences d'acides aminés. Désormais, les modèles de langage des protéines permettent en quelque sorte de faire l'inverse : l'IA peut prédire les séquences d'acides aminés qui ont une forte probabilité de posséder une certaine fonction. Cela permet par exemple de modéliser des protéines avec de nouvelles fonctions, voire de combiner plusieurs fonctions auparavant indépendantes. Ces « protéines artificielles » peuvent ensuite être produites en laboratoire de génie génétique, par exemple à l'aide de bactéries.
De nombreuses possibilités d'application dans l'industrie et la médecine
L'IA est capable d'apprendre : En intégrant des protéines et des fonctions connues, elle améliore au fil du temps le succès de ses prédictions - comme pour les tâches basées sur du texte. Des modèles de protéines fiables promettent des avancées technologiques dans les disciplines les plus diverses des sciences de la vie :
Un exemple d'application vient de l'espace de recherche suisse : des chercheurs* de l'EPF de Zurich ont développé un nouveau procédé informatique basé sur la LLM, à l'aide duquel il est possible de générer de nouvelles substances actives pharmaceutiques. Son utilisation pourrait révolutionner la recherche sur les médicaments. Les chercheurs* décrivent ainsi comment cette nouvelle méthode peut être utilisée pour le traitement du diabète : Il s'agit d'activer des protéines qui font baisser le taux de glucose dans le sang. La technique est également une nouveauté prometteuse pour le traitement du cancer : un premier exemple de réussite vient de l'hôpital pédiatrique de Zurich, où le procédé est déjà utilisé dans le cadre du traitement des tumeurs cérébrales chez les enfants.
Le potentiel des modèles de dépistage va bien au-delà de ces exemples. Enfin, la technique peut être utilisée par le public et appliquée aux protéines les plus diverses.