MITのエンジニア、AIを活用して産業用酵母でのタンパク質製造を最適化
MITの化学エンジニアらは、大規模言語モデル(LLM)を用いて産業用酵母におけるタンパク質生産を最適化した。AIモデルは、がん治療用モノクローナル抗体を含む6種類中5種類のタンパク質で収率を向上させ、医薬品開発コストの削減につながる可能性がある。
MITの化学エンジニアらは、人工知能を活用して産業用酵母における新たなタンパク質製造プロセスの開発を最適化することに成功した。これにより、バイオ医薬品の開発・製造にかかる全体的なコストを削減できる可能性がある。
MITの研究チームは、大規模言語モデル(LLM)を用いて産業用酵母 Komagataella phaffii(コマガタエラ・ファフィ)の遺伝コード、特に使用されるコドンを解析した。特定のアミノ酸をコードするには複数のコドン(3文字のDNA配列)が存在し、コドンの使用パターンは生物ごとに異なる。
今回開発されたMITのモデルは、K. phaffii におけるそれらのパターンを学習し、特定のタンパク質を製造するのに最適なコドンを予測する。これにより研究者らは、ヒト成長ホルモンやがん治療に用いられるモノクローナル抗体を含む6種類のタンパク質について、酵母の生産効率を向上させることに成功した。
K. phaffii や Saccharomyces cerevisiae(パン酵母)などの酵母は、バイオ医薬品業界の主力であり、毎年数十億ドル相当のタンパク質医薬品やワクチンを生産している。産業用タンパク質生産のために酵母を改変する際、研究者はインスリン遺伝子など別の生物から遺伝子を採取し、微生物が大量に生産できるよう改変する。これには、酵母細胞に最適なDNA配列を考案し、それを酵母のゲノムに組み込み、好適な増殖条件を整え、最終的に最終産物を精製するプロセスが必要となる。
新しい生物学的医薬品(生物由来の大型で複雑な医薬品)の場合、この開発プロセスが医薬品の商業化にかかる総コストの15〜20%を占めることがある。
MITチームは、エンコーダー・デコーダー型と呼ばれる大規模言語モデルを採用した。テキストを解析する代わりに、DNA配列を解析し、特定の遺伝子で使用されるコドン間の関係を学習させた。トレーニングデータは、米国国立生物工学情報センター(NCBI)の公開データセットから取得したもので、K. phaffii が自然に生産する約5,000種類すべてのタンパク質のアミノ酸配列と対応するDNA配列で構成されている。
「このモデルは、コドンがどのように使用されるかという構文や言語を学習します」と、本研究の上級著者であり、MIT化学工学教授でKoch Institute for Integrative Cancer Researchのメンバーでもある研究者は述べている。「コドンが互いにどのように配置されるかだけでなく、それらの間の長距離的な関係も考慮に入れています。」
モデルのトレーニング後、研究者らはこのモデルを用いて、ヒト成長ホルモン、ヒト血清アルブミン、そしてがん治療に用いられるモノクローナル抗体であるトラスツズマブを含む6種類のタンパク質のコドン配列を最適化した。また、市販されている4種類のコドン最適化ツールを用いて、これらのタンパク質の最適化配列も生成した。研究者らはこれらの配列をそれぞれ K. phaffii 細胞に挿入し、各配列がどれだけの標的タンパク質を生成するかを測定した。6種類中5種類のタンパク質において、MITの新モデルによる配列が最も優れた結果を示した。
本研究は今週、Proceedings of the National Academy of Sciences(米国科学アカデミー紀要)に掲載された。