AIモデルが酵母でのタンパク質医薬品生産を最適化、開発コスト削減の可能性
MITの化学工学者らは、工業用酵母Komagataella phaffiiにおけるタンパク質生産を高めるため、コドン配列を最適化する大規模言語モデル(LLM)を開発した。ヒト成長ホルモンや抗がん抗体trastuzumabを含む6種類のタンパク質で検証し、市販のコドン最適化ツール4種を上回る性能を示した。
MITの化学工学者らは人工知能を活用し、新しいタンパク質製造プロセスの開発を最適化することで、これらの薬剤の開発・製造にかかる総コストを削減できる可能性を示した。研究成果は今週、『Proceedings of the National Academy of Sciences』に掲載された。
工業用酵母は、ワクチン、バイオ医薬品、その他の有用化合物の製造に用いられる強力なタンパク質生産プラットフォームである。MITのチームは大規模言語モデル(LLM)を用い、工業用酵母 Komagataella phaffii の遺伝暗号、特に同酵母が用いるコドンを解析した。特定のアミノ酸をコードするために使用できるコドン(3文字のDNA配列)には複数の候補があり、コドン使用パターンは生物種ごとに異なる。
新たなMITモデルはK. phaffiiにおけるそのパターンを学習し、所望のタンパク質を製造するうえで最も適したコドンを予測するために用いた。これにより研究者らは、ヒト成長ホルモンや、がん治療に用いられるモノクローナル抗体を含む6種類の異なるタンパク質について、酵母による生産効率を向上させることができた。
「アイデアを得てから生産に移すまでの時間を短縮するためには、安定して高い性能を示す予測ツールが非常に重要です。不確実性を取り除くことは、最終的に時間と費用の節約につながります」と、本研究のシニア著者であるMIT化学工学のRaymond A. and Helen E. St. Laurent教授(Koch Institute for Integrative Cancer Researchのメンバー、MIT Initiative for New Manufacturing(MIT INM)の教員共同ディレクター)は述べている。
K. phaffiiやSaccharomyces cerevisiae(パン酵母)のような酵母は、バイオ医薬品産業の主力として、毎年、数十億ドル規模のタンパク質医薬品やワクチンを生産している。工業的なタンパク質生産に向けて酵母を設計する際、研究者はインスリン遺伝子のように別の生物由来の遺伝子を取り込み、微生物がそれを大量生産できるよう改変する。そのためには、酵母細胞に最適なDNA配列を設計し、それを酵母のゲノムに組み込み、好ましい増殖条件を整え、最後に最終産物を精製する必要がある。
生物製剤(biologic drug)— 生物が産生する大型で複雑な薬剤 — においては、この開発プロセスが薬剤の商業化に要する総コストの15〜20%を占める可能性がある。「現在、これらのステップは非常に手間のかかる実験作業によって行われています」とシニア著者は言う。「私たちは、機械学習で生まれつつある概念のいくつかをどこに取り入れれば、プロセスのさまざまな側面をより信頼性の高いものにし、予測をより簡単にできるのかという問いに取り組んできました。」
本研究で研究者らは、目的タンパク質の遺伝子を構成するDNAコドン配列の最適化を試みた。天然に存在するアミノ酸は20種類だが、可能なコドン配列は64通りあるため、多くのアミノ酸は複数のコドンでコードされ得る。各コドンは固有のトランスファーRNA(tRNA)分子に対応しており、tRNAは正しいアミノ酸をリボソームへ運び、そこでアミノ酸がつながってタンパク質が合成される。
生物種によって各コドンの使用頻度は異なり、組換えタンパク質を設計する際には、宿主生物で最も頻繁に出現するコドンを選ぶことで生産を最適化することが多い。しかし、これが必ずしも最良の結果につながるとは限らない。例えばアルギニンをコードする際に常に同じコドンを用いると、そのコドンに対応するtRNA分子が細胞内で不足する可能性がある。
より精緻なアプローチを取るため、MITのチームは encoder-decoder と呼ばれるタイプの大規模言語モデルを導入した。テキストを解析する代わりに、DNA配列を解析して、特定の遺伝子で使用されるコドン間の関係性を学習させた。学習データはNational Center for Biotechnology Informationの公開データセットに由来し、K. phaffiiが自然に産生する約5,000種類のタンパク質すべてについて、アミノ酸配列とそれに対応するDNA配列から構成されていた。
「このモデルは、これらのコドンがどのように使われるかという“構文”あるいは“言語”を学習します」とシニア著者は述べる。「コドンが隣り合って配置される様子だけでなく、それらの長距離の関係性も考慮に入れています。」
モデルの学習後、研究者らはヒト成長ホルモン、ヒト血清アルブミン、そしてがん治療に用いられるモノクローナル抗体である trastuzumab を含む6種類の異なるタンパク質について、コドン配列の最適化をモデルに依頼した。さらに、市販されている4種類のコドン最適化ツールを用いて、同じタンパク質の最適化配列も作成した。研究者らは、それぞれの配列をK. phaffii細胞に導入し、各配列がどれだけ目的タンパク質を産生したかを測定した。6種類中5種類のタンパク質では、新しいMITモデルによる配列が最も良好に機能した。