MIT-Ingenieure optimieren mit KI die Proteinproduktion in industrieller Hefe
MIT-Chemieingenieure haben ein Large Language Model eingesetzt, um die Proteinproduktion in der industriellen Hefe Komagataella phaffii zu optimieren. Das KI-Modell verbesserte die Ausbeute bei fünf von sechs getesteten Proteinen, darunter ein monoklonaler Krebsantikörper, was die Kosten für die Arzneimittelentwicklung senken könnte.
MIT-Chemieingenieure haben künstliche Intelligenz genutzt, um die Entwicklung neuer Verfahren zur Proteinherstellung in industrieller Hefe zu optimieren – was die Gesamtkosten für die Entwicklung und Herstellung von Biopharmazeutika senken könnte.
Mithilfe eines Large Language Model (LLM) analysierte das MIT-Team den genetischen Code der industriellen Hefe Komagataella phaffii – insbesondere die von ihr verwendeten Codons. Es gibt mehrere mögliche Codons, also drei Buchstaben lange DNA-Sequenzen, die zur Kodierung einer bestimmten Aminosäure verwendet werden können, und die Muster der Codon-Nutzung sind für jeden Organismus unterschiedlich.
Das neue MIT-Modell erlernte diese Muster für K. phaffii und nutzte sie anschließend, um vorherzusagen, welche Codons sich für die Herstellung eines bestimmten Proteins am besten eignen. Dadurch konnten die Forscher die Effizienz der Hefeproduktion von sechs verschiedenen Proteinen steigern, darunter menschliches Wachstumshormon und ein monoklonaler Antikörper zur Krebsbehandlung.
Hefen wie K. phaffii und Saccharomyces cerevisiae (Bäckerhefe) sind die Arbeitspferde der biopharmazeutischen Industrie und produzieren jedes Jahr proteinbasierte Medikamente und Impfstoffe im Wert von Milliarden Dollar. Um Hefe für die industrielle Proteinproduktion zu optimieren, entnehmen Forscher ein Gen aus einem anderen Organismus, beispielsweise das Insulin-Gen, und modifizieren es so, dass der Mikroorganismus es in großen Mengen produziert. Dies erfordert die Entwicklung einer optimalen DNA-Sequenz für die Hefezellen, deren Integration in das Hefegenom, die Schaffung günstiger Wachstumsbedingungen und schließlich die Reinigung des Endprodukts.
Bei neuen Biologika – großen, komplexen Arzneimitteln, die von lebenden Organismen produziert werden – kann dieser Entwicklungsprozess 15 bis 20 Prozent der Gesamtkosten für die Kommerzialisierung des Medikaments ausmachen.
Das MIT-Team setzte eine Art von Large Language Model ein, das als Encoder-Decoder bekannt ist. Anstatt Text zu analysieren, verwendeten die Forscher es zur Analyse von DNA-Sequenzen und zum Erlernen der Beziehungen zwischen Codons, die in bestimmten Genen verwendet werden. Ihre Trainingsdaten, die aus einem öffentlich zugänglichen Datensatz des National Center for Biotechnology Information stammten, bestanden aus den Aminosäuresequenzen und den entsprechenden DNA-Sequenzen aller etwa 5.000 Proteine, die von K. phaffii natürlicherweise produziert werden.
„Das Modell erlernt die Syntax oder die Sprache, wie diese Codons verwendet werden“, sagte der leitende Autor der Studie, Professor für Chemieingenieurwesen am MIT und Mitglied des Koch Institute for Integrative Cancer Research. „Es berücksichtigt, wie Codons nebeneinander platziert werden, sowie die langfristigen Beziehungen zwischen ihnen.“
Nachdem das Modell trainiert war, baten die Forscher es, die Codon-Sequenzen von sechs verschiedenen Proteinen zu optimieren, darunter menschliches Wachstumshormon, menschliches Serumalbumin und Trastuzumab, einen monoklonalen Antikörper zur Krebsbehandlung. Sie erstellten auch optimierte Sequenzen dieser Proteine mit vier kommerziell erhältlichen Codon-Optimierungswerkzeugen. Die Forscher fügten jede dieser Sequenzen in K. phaffii-Zellen ein und maßen, wie viel des Zielproteins jede Sequenz produzierte. Bei fünf der sechs Proteine funktionierten die Sequenzen des neuen MIT-Modells am besten.
Die Studie erscheint diese Woche in den Proceedings of the National Academy of Sciences.