Verblüffende Parallelen zwischen menschlicher Sprache und Biologie: KI nutzt Sprachmodelle zur Proteinentwicklung
Chatbots sind wahre Textkünstler
Künstliche Intelligenz (KI) hat vielfältige Anwendungsbereiche in der automatisierten Erstellung von Inhalten, wie beispielsweise von Text-, Bild-, Audio- oder Videobeiträgen. Globale Bekanntheit erlangte KI zuletzt über den Chatbot «Chat-GPT», der erstaunliches Potenzial für die Texterstellung birgt. Dafür nutzt der Chatbot sogenannte Sprachmodelle, mit deren Hilfe die KI lernt, inhaltliche logische Texte aufzubauen, dabei grammatikalische Regeln zu beachten, und die Texte gar entsprechend ihres Zwecks sprachlich zu nuancieren.
Von der Linguistik zur Biologie
Ein neues Anwendungsgebiet für solche Sprachmodelle kommt aus den Biowissenschaften. Dort ist es Forscher*innen bereits gelungen, anhand sogenannter grosser Sprachmodelle (engl. «Large Language Models» oder kurz «LLM») neuartige Eiweissmoleküle zu basteln. Eiweisse, auch als «Proteine» bezeichnet, üben vielfältige Funktionen im menschlichen Körper aus: Sie bekämpfen Krankheitserreger, transportieren Sauerstoff durch das Blut, bilden unsere Haare und Nägel, und regulieren unsere Muskelbewegungen – nebst vieler weiterer Funktionen.
Für die computergestützte Generierung von Proteinen nutzt man dabei Parallelen zwischen dem Aufbau menschlicher Sprachen und dem Aufbau von Proteinen: Während Sätze durch Worte gebildet werden, bestehen Proteine ebenso aus Einzelbausteinen, den sogenannten «Aminosäuren». Sie sind in bestimmten Abfolgen aneinandergereiht und bekommen dadurch eine ganz bestimmte Funktion, die sie im Körper ausüben können.
Mit bekannten Bausteinen entstehen neue Eigenschaften
Schon seit längerem können computerbasierte Algorithmen die Funktion existierender Proteine auf Basis ihrer Aminosäure-Sequenzen vorhersagen. Nun gelingt mithilfe der Proteinsprachmodelle gewissermassen der umgekehrte Schritt: KI kann Aminosäure-Sequenzen vorhersagen, die mit hoher Wahrscheinlichkeit eine bestimmte Funktion besitzen. Dadurch können beispielsweise Proteine mit neuen Funktionen modelliert werden, oder gar mehrere zuvor unabhängige Funktionen miteinander kombiniert werden. Diese «künstlichen Proteine» können dann im Gentechniklabor beispielsweise mithilfe von Bakterien hergestellt werden.
Vielfältige Anwendungsmöglichkeiten in Industrie und Medizin
Die KI ist dabei lernfähig: Über die Einspeisung bekannter Proteine und Funktionen verbessert sie im Laufe der Zeit den Erfolg ihrer Vorhersagen – wie bei textbasierten Aufgaben. Zuverlässige Proteinmodelle versprechen technologische Fortschritte in unterschiedlichsten Disziplinen der Life Sciences:
Ein Anwendungsbeispiel kommt aus dem Schweizer Forschungsraum: Forscher*innen der ETH Zürich haben ein neues LLM-basiertes Computerverfahren entwickelt, mithilfe dessen sich neue pharmazeutische Wirkstoffe generieren lassen. Sein Einsatz könnte die Medikamentenforschung revolutionieren. So beschreiben die Forscher*innen, wie man die neue Methode zur Diabetes-Behandlung einsetzen kann: Dabei sollen Proteine aktiviert werden, die den Blutzuckerspiegel senken. Auch für die Krebsbehandlung ist die Technik ein vielversprechendes Novum: Ein erstes Erfolgsbeispiel kommt aus dem Kinderspital Zürich, wo das Verfahren bereits im Rahmen der Behandlung von Hirntumoren bei Kindern Anwendung findet.
Das Potenzial von Proteinsprachmodellen geht dabei weit über diese Beispiele hinaus. Schliesslich ist die Technik öffentlich nutzbar und kann auf unterschiedlichste Proteine angewandt werden.