AI模型优化酵母生产蛋白药物,有望降低研发成本

MIT化学工程师开发了一种大型语言模型,用于优化工业酵母Komagataella phaffii中的密码子序列,从而提升蛋白药物的表达效率。该方法在6种蛋白中有5种优于多款商业化密码子优化工具,有望降低生物药研发与生产成本。

MIT的化学工程师利用人工智能来优化新型蛋白质生产工艺的开发,或可降低这些药物在研发与制造环节的总体成本。相关研究本周发表于《Proceedings of the National Academy of Sciences》。

工业酵母是蛋白质生产的“主力”,用于制造疫苗、生物制药产品以及其他有用化合物。MIT团队使用大型语言模型(LLM)分析了工业酵母 Komagataella phaffii 的遗传密码——具体而言,是它所使用的密码子(codon)。对某一种氨基酸而言,可以使用多种可能的密码子,即由3个字母组成的DNA序列来进行编码,而且不同生物体的密码子使用模式各不相同。

MIT的新模型学习了K. phaffii的这些模式,并据此预测在制造特定蛋白质时哪些密码子最为合适。借助该模型,研究人员提高了酵母对6种不同蛋白质的生产效率,其中包括人类生长激素以及一种用于治疗癌症的单克隆抗体。

该研究的一位资深作者——MIT化学工程系Raymond A. and Helen E. St. Laurent讲席教授、Koch Institute for Integrative Cancer Research成员、MIT Initiative for New Manufacturing(MIT INM)联合主任——表示:“拥有一套始终表现稳定、效果良好的预测工具,对于缩短从想法到投入生产的时间至关重要。减少不确定性最终能节省时间和成本。”

K. phaffii以及Saccharomyces cerevisiae(面包酵母)等酵母是生物制药行业的“工作马”,每年生产价值数十亿美元的蛋白药物和疫苗。为让酵母适用于工业化蛋白生产,研究人员会从其他生物体中获取某个基因(例如胰岛素基因),并对其进行改造,使微生物能够大量表达该基因产物。这一过程需要为酵母细胞设计最优的DNA序列,将其整合进酵母基因组,制定有利的培养条件,最终对产物进行纯化。

对于新的生物药(biologic drugs)——由生物体产生、结构庞大且复杂的药物——这一开发流程可能占药物商业化总体成本的15%到20%。资深作者表示:“如今,这些步骤都依赖非常繁琐的实验操作。我们一直在思考,能否将机器学习领域正在涌现的一些概念应用到其中,使流程的不同环节更可靠、也更容易预测。”

在这项研究中,研究人员希望优化目标蛋白基因所对应的DNA密码子序列。天然存在的氨基酸有20种,但可能的密码子序列有64种,因此大多数氨基酸都可由不止一种密码子编码。每一种密码子都对应一种特定的转运RNA(tRNA)分子,tRNA将正确的氨基酸运送至核糖体,在那里氨基酸被串联起来形成蛋白质。

不同生物体使用各个密码子的频率不同,工程化蛋白的设计者常通过选择宿主生物中最常见的密码子来优化蛋白产量。然而,这并不一定能带来最佳结果。例如,如果编码精氨酸时始终使用同一种密码子,细胞内与该密码子对应的tRNA分子可能会供应不足。

为采取更细致的策略,MIT团队采用了一种称为 encoder-decoder 的大型语言模型。研究人员并非用其分析文本,而是用它来分析DNA序列,并学习特定基因中密码子使用之间的关联。他们的训练数据来自National Center for Biotechnology Information的公开数据集,包含K. phaffii天然产生的约5,000种蛋白的氨基酸序列及其对应的DNA序列。

资深作者说:“该模型学习的是这些密码子如何被使用的语法或语言。它不仅考虑密码子彼此相邻时的排列方式,也考虑它们之间的长距离关系。”

模型训练完成后,研究人员让其对6种不同蛋白的密码子序列进行优化,包括人类生长激素、人血清白蛋白,以及用于治疗癌症的单克隆抗体 trastuzumab。他们还使用4款商业化的密码子优化工具生成这些蛋白的优化序列。研究人员将每一种序列分别导入K. phaffii细胞,并测量每种序列产生目标蛋白的产量。对6种蛋白中的5种而言,来自MIT新模型的序列表现最佳。

Related Entities

Related Articles

References

  1. New AI model could cut the costs of developing protein drugs - EurekAlert! · www.eurekalert.org
  2. AI Model May Slash Protein Drug Development Costs | Mirage News · www.miragenews.com
  3. New AI model could cut the costs of developing protein drugs | MIT News · news.mit.edu