Proteinsprachmodelle
Über die Nutzung von Sprachmodellen kann Künstliche Intelligenz Eiweisse mit neuen Funktionen vorhersagen. (Bildquelle: Pexels)

Verblüffende Parallelen zwischen menschlicher Sprache und Biologie: KI nutzt Sprachmodelle zur Proteinentwicklung

Künstliche Intelligenz kann trainiert werden, Eiweissmoleküle mit neuen Funktionen vorherzusagen. Dazu nutzt sie die strukturellen Gemeinsamkeiten zwischen der menschlichen Sprache und dem Aufbau biologischer Eiweisse. Das neue Vorgehen bietet vielversprechende Einsatzmöglichkeiten in der Medikamentenentwicklung und therapeutischen Medizin.

Chatbots sind wahre Textkünstler

Künstliche Intelligenz (KI) hat vielfältige Anwendungsbereiche in der automatisierten Erstellung von Inhalten, wie beispielsweise von Text-, Bild-, Audio- oder Videobeiträgen. Globale Bekanntheit erlangte KI zuletzt über den Chatbot «Chat-GPT», der erstaunliches Potenzial für die Texterstellung birgt. Dafür nutzt der Chatbot sogenannte Sprachmodelle, mit deren Hilfe die KI lernt, inhaltliche logische Texte aufzubauen, dabei grammatikalische Regeln zu beachten, und die Texte gar entsprechend ihres Zwecks sprachlich zu nuancieren.

 

Von der Linguistik zur Biologie

Ein neues Anwendungsgebiet für solche Sprachmodelle kommt aus den Biowissenschaften. Dort ist es Forscher*innen bereits gelungen, anhand sogenannter grosser Sprachmodelle (engl. «Large Language Models» oder kurz «LLM») neuartige Eiweissmoleküle zu basteln. Eiweisse, auch als «Proteine» bezeichnet, üben vielfältige Funktionen im menschlichen Körper aus: Sie bekämpfen Krankheitserreger, transportieren Sauerstoff durch das Blut, bilden unsere Haare und Nägel, und regulieren unsere Muskelbewegungen – nebst vieler weiterer Funktionen.

Für die computergestützte Generierung von Proteinen nutzt man dabei Parallelen zwischen dem Aufbau menschlicher Sprachen und dem Aufbau von Proteinen: Während Sätze durch Worte gebildet werden, bestehen Proteine ebenso aus Einzelbausteinen, den sogenannten «Aminosäuren». Sie sind in bestimmten Abfolgen aneinandergereiht und bekommen dadurch eine ganz bestimmte Funktion, die sie im Körper ausüben können.

 

Mit bekannten Bausteinen entstehen neue Eigenschaften

Schon seit längerem können computerbasierte Algorithmen die Funktion existierender Proteine auf Basis ihrer Aminosäure-Sequenzen vorhersagen. Nun gelingt mithilfe der Proteinsprachmodelle gewissermassen der umgekehrte Schritt: KI kann Aminosäure-Sequenzen vorhersagen, die mit hoher Wahrscheinlichkeit eine bestimmte Funktion besitzen. Dadurch können beispielsweise Proteine mit neuen Funktionen modelliert werden, oder gar mehrere zuvor unabhängige Funktionen miteinander kombiniert werden. Diese «künstlichen Proteine» können dann im Gentechniklabor beispielsweise mithilfe von Bakterien hergestellt werden.

 

Vielfältige Anwendungsmöglichkeiten in Industrie und Medizin

Die KI ist dabei lernfähig: Über die Einspeisung bekannter Proteine und Funktionen verbessert sie im Laufe der Zeit den Erfolg ihrer Vorhersagen – wie bei textbasierten Aufgaben. Zuverlässige Proteinmodelle versprechen technologische Fortschritte in unterschiedlichsten Disziplinen der Life Sciences:

Ein Anwendungsbeispiel kommt aus dem Schweizer Forschungsraum: Forscher*innen der ETH Zürich haben ein neues LLM-basiertes Computerverfahren entwickelt, mithilfe dessen sich neue pharmazeutische Wirkstoffe generieren lassen. Sein Einsatz könnte die Medikamentenforschung revolutionieren. So beschreiben die Forscher*innen, wie man die neue Methode zur Diabetes-Behandlung einsetzen kann: Dabei sollen Proteine aktiviert werden, die den Blutzuckerspiegel senken. Auch für die Krebsbehandlung ist die Technik ein vielversprechendes Novum: Ein erstes Erfolgsbeispiel kommt aus dem Kinderspital Zürich, wo das Verfahren bereits im Rahmen der Behandlung von Hirntumoren bei Kindern Anwendung findet.

Das Potenzial von Proteinsprachmodellen geht dabei weit über diese Beispiele hinaus. Schliesslich ist die Technik öffentlich nutzbar und kann auf unterschiedlichste Proteine angewandt werden.

Experten vertreten die Auffassung, dass die Patienten mit einem umfassenden Datenpool eine bessere Behandlung erhalten würden.

Mehr Effizienz im Gesundheitswesen: Patientendaten für die Forschung nutzen

Den Datenschatz heben

Wie eine Wunde heilt, nehme ETH-​Forschende unter die Lupe.

Wie Wunden heilen und Tumore wachsen

Bart Deplancke, PhD, a scientist at EPFL, is a senior author of the study.

Sequencing Living Cells Made Possible Through Live-Seq

Welche Bedeutung haben Gesundheitsdaten für Gesellschaft und Forschung?

Menschliches Mikrobiom und Darmgesundheit

Erste genetische Veränderung von Darmbakterien in lebender Maus eröffnet neue Behandlungswege