KI-Modell optimiert die Herstellung von Protein-Arzneimitteln in Hefe und könnte Entwicklungskosten senken
MIT-Ingenieur:innen der Chemietechnik haben ein Large Language Model entwickelt, das Codon-Sequenzen für die Proteinproduktion in der industriellen Hefe Komagataella phaffii optimiert. In Tests steigerte das Modell die Ausbeute bei fünf von sechs Proteinen – darunter menschliches Wachstumshormon und trastuzumab – und könnte so Entwicklungs- und Herstellungskosten für Biologika senken.
MIT-Ingenieur:innen der Chemietechnik haben künstliche Intelligenz genutzt, um die Entwicklung neuer Protein-Herstellungsprozesse zu optimieren – was die Gesamtkosten für Entwicklung und Produktion dieser Medikamente senken könnte. Die Studie erscheint in dieser Woche in den Proceedings of the National Academy of Sciences.
Industrielle Hefen sind ein Kraftpaket der Proteinproduktion und werden zur Herstellung von Impfstoffen, Biopharmazeutika und anderen nützlichen Verbindungen eingesetzt. Mithilfe eines Large Language Model (LLM) analysierte das MIT-Team den genetischen Code der industriellen Hefe Komagataella phaffii – insbesondere die von ihr verwendeten Codons. Es gibt mehrere mögliche Codons, also dreibuchstabige DNA-Sequenzen, mit denen eine bestimmte Aminosäure codiert werden kann, und die Muster der Codon-Nutzung unterscheiden sich von Organismus zu Organismus.
Das neue MIT-Modell lernte diese Muster für K. phaffii und nutzte sie anschließend, um vorherzusagen, welche Codons sich am besten für die Herstellung eines bestimmten Proteins eignen. Dadurch konnten die Forschenden die Effizienz der Hefe bei der Produktion von sechs unterschiedlichen Proteinen steigern, darunter menschliches Wachstumshormon und ein monoklonaler Antikörper zur Krebsbehandlung.
„Vorhersagewerkzeuge zu haben, die konsistent gut funktionieren, ist wirklich wichtig, um die Zeit von einer Idee bis zur Umsetzung in der Produktion zu verkürzen. Die Beseitigung von Unsicherheit spart letztlich Zeit und Geld“, sagt ein leitender Autor der Studie, der Raymond A. and Helen E. St. Laurent Professor of Chemical Engineering am MIT, Mitglied des Koch Institute for Integrative Cancer Research und Co-Direktor der Fakultät der MIT Initiative for New Manufacturing (MIT INM).
Hefen wie K. phaffii und Saccharomyces cerevisiae (Bäckerhefe) sind die Arbeitspferde der biopharmazeutischen Industrie und produzieren jedes Jahr Protein-Arzneimittel und Impfstoffe im Wert von Milliarden Dollar. Um Hefe für die industrielle Proteinproduktion zu konstruieren, entnehmen Forschende ein Gen aus einem anderen Organismus, etwa das Insulin-Gen, und verändern es so, dass der Mikroorganismus es in großen Mengen produziert. Dazu gehört, eine optimale DNA-Sequenz für die Hefezellen zu entwerfen, sie in das Genom der Hefe zu integrieren, günstige Wachstumsbedingungen zu entwickeln und schließlich das Endprodukt zu reinigen.
Bei neuen Biologika – großen, komplexen Arzneimitteln, die von lebenden Organismen produziert werden – kann dieser Entwicklungsprozess 15 bis 20 Prozent der Gesamtkosten für die Kommerzialisierung des Arzneimittels ausmachen. „Heute werden diese Schritte alle durch sehr aufwendige experimentelle Arbeiten durchgeführt“, sagt der leitende Autor. „Wir haben uns gefragt, wo wir einige der Konzepte, die im Machine Learning entstehen, übernehmen und anwenden könnten, um verschiedene Aspekte des Prozesses zuverlässiger zu machen und einfacher vorherzusagen.“
In dieser Studie wollten die Forschenden versuchen, die Abfolge der DNA-Codons zu optimieren, aus denen das Gen für ein Zielprotein besteht. Es gibt 20 natürlich vorkommende Aminosäuren, aber 64 mögliche Codon-Sequenzen, sodass die meisten dieser Aminosäuren durch mehr als ein Codon codiert werden können. Jedes Codon entspricht einem einzigartigen Transfer-RNA-(tRNA)-Molekül, das die richtige Aminosäure zum Ribosom transportiert, wo Aminosäuren zu Proteinen aneinandergereiht werden.
Verschiedene Organismen nutzen jedes dieser Codons mit unterschiedlichen Häufigkeiten, und Entwickler:innen gentechnisch veränderter Proteine optimieren die Produktion häufig, indem sie die Codons auswählen, die im Wirtsorganismus am häufigsten vorkommen. Das führt jedoch nicht zwangsläufig zu den besten Ergebnissen. Wenn beispielsweise immer dasselbe Codon zur Codierung von Arginin verwendet wird, kann der Zelle die Menge an tRNA-Molekülen ausgehen, die zu diesem Codon passen.
Um einen differenzierteren Ansatz zu verfolgen, setzte das MIT-Team eine Art Large Language Model ein, die als encoder-decoder bekannt ist. Anstatt Text zu analysieren, nutzten die Forschenden es, um DNA-Sequenzen zu analysieren und die Beziehungen zwischen Codons zu erlernen, die in bestimmten Genen verwendet werden. Ihre Trainingsdaten, die aus einem öffentlich verfügbaren Datensatz des National Center for Biotechnology Information stammten, bestanden aus den Aminosäuresequenzen und den entsprechenden DNA-Sequenzen aller rund 5.000 Proteine, die K. phaffii natürlicherweise produziert.
„Das Modell lernt die Syntax oder die Sprache, wie diese Codons verwendet werden“, sagt der leitende Autor. „Es berücksichtigt, wie Codons nebeneinander angeordnet sind, und auch die Beziehungen über größere Distanzen hinweg.“
Nachdem das Modell trainiert war, baten die Forschenden es, die Codon-Sequenzen von sechs verschiedenen Proteinen zu optimieren, darunter menschliches Wachstumshormon, humanes Serumalbumin und trastuzumab, ein monoklonaler Antikörper zur Krebsbehandlung. Sie erzeugten außerdem optimierte Sequenzen dieser Proteine mit vier kommerziell verfügbaren Codon-Optimierungswerkzeugen. Die Forschenden brachten jede dieser Sequenzen in K. phaffii-Zellen ein und maßen, wie viel Zielprotein jede Sequenz erzeugte. Bei fünf der sechs Proteine funktionierten die Sequenzen aus dem neuen MIT-Modell am besten.