MIT工程师利用AI优化工业酵母中的蛋白质生产
MIT化学工程师利用大型语言模型优化了工业酵母中的蛋白质生产。该AI模型提高了六种测试蛋白中五种的生产效率,包括一种癌症单克隆抗体,有望降低药物开发成本。
麻省理工学院(MIT)的化学工程师利用人工智能优化了工业酵母中新型蛋白质生产工艺的开发,这有望降低生物制药的研发与制造成本。
MIT团队使用大型语言模型(LLM)分析了工业酵母Komagataella phaffii的遗传密码——具体来说,是其使用的密码子。编码特定氨基酸的密码子(即三个字母的DNA序列)有多种可能,而每种生物体的密码子使用模式各不相同。
这个新的MIT模型学习了K. phaffii的这些模式,然后利用它们来预测哪些密码子最适合生产某种特定蛋白质。这使得研究人员能够提高酵母对六种不同蛋白质的生产效率,其中包括人生长激素和一种用于治疗癌症的单克隆抗体。
K. phaffii和酿酒酵母(Saccharomyces cerevisiae)(面包酵母)等酵母是生物制药工业的主力,每年生产价值数十亿美元的蛋白质药物和疫苗。为了将酵母改造用于工业蛋白质生产,研究人员从另一种生物体(如胰岛素基因)中取出一个基因,对其进行修改,使微生物能够大量生产该蛋白质。这需要为酵母细胞设计出最优的DNA序列,将其整合到酵母基因组中,创造有利的生长条件,最后纯化最终产物。
对于新型生物药——由活生物体产生的大型复杂药物——这一开发过程可能占药物商业化总成本的15%至20%。
MIT团队部署了一种称为编码器-解码器(encoder-decoder)的大型语言模型。研究人员没有用它来分析文本,而是用它来分析DNA序列,并学习特定基因中密码子之间的关联关系。他们的训练数据来自美国国家生物技术信息中心(NCBI)的一个公开数据集,包含了K. phaffii自然产生的约5000种蛋白质的氨基酸序列及其对应的DNA序列。
"模型学会了这些密码子使用的语法或语言,"该研究的资深作者、MIT化学工程教授、科赫综合癌症研究所(Koch Institute for Integrative Cancer Research)成员说。"它考虑了密码子之间的相邻关系,也考虑了它们之间的长距离关联。"
模型训练完成后,研究人员要求它优化六种不同蛋白质的密码子序列,包括人生长激素、人血清白蛋白和曲妥珠单抗(trastuzumab,一种用于治疗癌症的单克隆抗体)。他们还使用四种市售的密码子优化工具生成了这些蛋白质的优化序列。研究人员将每种序列插入K. phaffii细胞中,并测量每种序列产生的目标蛋白量。对于六种蛋白质中的五种,来自MIT新模型的序列效果最佳。
该研究本周发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上。