MIT 공학자들, AI로 산업용 효모의 단백질 생산 최적화 성공
MIT 화학공학자들이 대규모 언어 모델을 활용해 산업용 효모의 단백질 생산을 최적화하는 데 성공했다. AI 모델은 암 치료용 단일클론항체를 포함한 6가지 시험 단백질 중 5가지에서 생산 수율을 개선했으며, 이는 의약품 개발 비용을 낮출 수 있는 기술이다.
MIT 화학공학자들이 인공지능을 활용해 산업용 효모에서 새로운 단백질 제조 공정을 최적화하는 데 성공했다. 이는 바이오의약품의 개발 및 제조 비용을 전반적으로 낮출 수 있는 기술이다.
MIT 연구팀은 대규모 언어 모델(LLM)을 사용해 산업용 효모 Komagataella phaffii의 유전자 코드, 특히 이 효모가 사용하는 코돈(codon)을 분석했다. 특정 아미노산을 암호화하는 데 사용할 수 있는 코돈(세 글자 DNA 서열)은 여러 가지가 있으며, 코돈 사용 패턴은 생물체마다 다르다.
새로운 MIT 모델은 K. phaffii의 이러한 패턴을 학습한 뒤, 특정 단백질을 제조하는 데 가장 적합한 코돈을 예측했다. 이를 통해 연구진은 인간 성장 호르몬과 암 치료용 단일클론항체를 포함한 6가지 서로 다른 단백질에 대해 효모의 생산 효율을 높일 수 있었다.
K. phaffii와 Saccharomyces cerevisiae(빵효모) 같은 효모는 바이오의약품 산업의 핵심으로, 매년 수십억 달러 상당의 단백질 의약품과 백신을 생산한다. 산업적 단백질 생산을 위해 효모를 조작할 때 연구자들은 인슐린 유전자처럼 다른 생물체에서 유전자를 가져와 미생물이 대량 생산할 수 있도록 변형한다. 이를 위해서는 효모 세포에 최적화된 DNA 서열을 도출하고, 이를 효모 게놈에 통합하며, 유리한 성장 조건을 고안하고, 최종 제품을 정제하는 과정이 필요하다.
생명체가 생산하는 크고 복잡한 의약품인 새로운 생물학적 제제(biologic drug)의 경우, 이러한 개발 과정이 의약품 상용화 총비용의 15~20%를 차지할 수 있다.
MIT 연구팀은 인코더-디코더(encoder-decoder) 방식의 대규모 언어 모델을 사용했다. 연구진은 이 모델을 텍스트 분석 대신 DNA 서열 분석에 활용해 특정 유전자에 사용되는 코돈 간의 관계를 학습시켰다. 훈련 데이터는 미국 국립생물공학정보센터(NCBI)의 공개 데이터셋에서 가져왔으며, K. phaffii가 자연적으로 생산하는 약 5,000개 단백질 전체의 아미노산 서열과 이에 대응하는 DNA 서열로 구성됐다.
"이 모델은 코돈이 어떻게 사용되는지, 그 구문(syntax) 또는 언어를 학습합니다. 코돈이 서로 어떻게 배치되는지, 그리고 코돈 간의 장거리 관계까지 고려합니다"라고 이 연구의 수석 저자이자 MIT 화학공학과 교수이자 코크 통합암연구소(Koch Institute for Integrative Cancer Research) 소속인 연구자는 말했다.
모델 훈련이 완료된 후, 연구진은 인간 성장 호르몬, 인간 혈청 알부민, 그리고 암 치료용 단일클론항체인 트라스투주맙(trastuzumab)을 포함한 6가지 단백질의 코돈 서열을 최적화하도록 요청했다. 또한 상용 코돈 최적화 도구 4가지를 사용해 이들 단백질의 최적화된 서열도 생성했다. 연구진은 각 서열을 K. phaffii 세포에 삽입한 후 각 서열이 생성한 표적 단백질의 양을 측정했다. 6가지 단백질 중 5가지에서 새로운 MIT 모델이 도출한 서열이 가장 우수한 성능을 보였다.
이 연구는 이번 주 *미국국립과학원회보(Proceedings of the National Academy of Sciences)*에 게재됐다.