미주리대, AI 기반 신약 개발 위한 단백질 모델 벤치마크 PSBench 공개
미주리대학교 연구진이 독립 전문가 검증을 거친 140만 개의 주석 달린 단백질 구조 모델 데이터베이스 PSBench를 공개했다. 이 자원은 바이오의약품 발굴이 데이터 기반 설계로 이동하는 흐름 속에서, AI가 단백질 모델의 신뢰성을 더 정확히 평가하도록 돕는 것을 목표로 한다.
미주리대학교 연구진이 140만 개의 주석 달린 단백질 구조 모델 데이터베이스인 PSBench를 공개했다. 이는 알츠하이머병과 암 같은 질환의 약물 개발을 가속할 수 있는 새로운 자원이다. 이 모델들은 독립적인 전문가들의 검증을 거쳤으며, 과학자들이 단백질 구조 모델의 품질을 평가하는 더 정확한 인공지능 시스템을 구축하는 데 도움을 주기 위한 것이다. AlphaFold와 같은 도구를 포함한 최근 AI의 발전은 단백질 구조 예측을 극적으로 향상시켰지만, 어떤 단일 AI 도구도 모든 종류의 단백질에 대해 일관되게 정확한 것은 아니다.
이 데이터베이스는 예측된 단백질 모델을 신뢰할 수 있는지 평가하는 데 필요한 정보를 과학자들에게 제공하며, 이는 미래 의학 치료법 개발에 핵심적이다. 단백질은 인체의 모든 생물학적 과정을 구동하며, 그 3차원 형태가 기능을 결정한다. 구조의 작은 변화조차 질병으로 이어질 수 있다.
PSBench 자원은 단백질 예측을 위한 계산 방법 평가의 국제적 골드 스탠더드로 널리 인정받는 **Critical Assessment of protein Structure Prediction (CASP)**에서 생성된 내부 자원과 연구 공동체 전반의 자원을 활용해 구축됐다. 2년마다 열리는 이 경쟁은 단백질 사슬이 기능에 필요한 3차원 형태로 어떻게 접히는지 예측하는 컴퓨터 모델을 독립적으로 시험하기 위해 만들어졌다.
이러한 발전은 바이오의약품 발굴이 느리고 실험 중심적인 과정에서 데이터 기반 공학 분야로 전환되는 더 넓은 흐름을 반영한다. 서열 문법을 해석하는 단백질 언어 모델에서 구조 예측기와 차세대 생성 모델에 이르는 딥러닝의 발전은 연구자들이 전례 없는 정밀도로 복잡한 생물학적 분자를 해독하고, 예측하고, 만들어낼 수 있게 하고 있다. 방대한 생물학 데이터세트로부터 학습함으로써 이러한 시스템은 서열, 구조, 기능을 연결하는 패턴을 밝혀낼 수 있으며, 이 분야를 우연한 발견에서 벗어나 합리적이고 설계 주도의 혁신으로 전환시키고 있다.
AI는 결합 친화도, 안정성, 생산 적합성과 같은 특성을 최적화하면서 맞춤형 기능을 가진 새로운 단백질, 항체, 펩타이드, 핵산을 설계할 수 있다. 확산 모델과 자기회귀 아키텍처를 포함한 생성 접근법은 기존 스크리닝이나 유도 진화로는 접근할 수 없는 광대한 분자 설계 공간을 과학자들이 탐색할 수 있게 한다. 동시에 머신러닝은 성능을 예측하고, 제형 설계를 유도하며, 새로운 구성 요소를 제안함으로써 지질 나노입자, 바이러스 벡터, 항체-약물 접합체와 같은 전달 전략도 개선하고 있다.
펩타이드 치료제, 항체, mRNA 기반 후보물질을 포함한 초기 AI 설계 바이오의약품은 임상 평가에 진입하고 있다. 동시에 AI 유도 최적화는 친화도 성숙과 안정성 엔지니어링을 가속해 광범위한 실험적 스크리닝 필요성을 줄이고 개발 기간을 단축하고 있다.
현재 모델은 분자 구조 예측에는 뛰어난 경우가 많지만 생물학적 시스템의 복잡성을 포착하는 데는 어려움을 겪고 있어, in silico 예측과 in vivo 결과 사이에 간극이 남아 있다. 면역원성, 약동학, 세포 맥락은 여전히 정확하게 모델링하기 어렵고, 고품질의 과제 특이적 데이터세트에 대한 제한된 접근성과 상충관계 없이 여러 약물 특성을 동시에 최적화하기 어렵다는 점이 진전을 제약하고 있다. 최근 한 리뷰의 저자들은 계산과 실험의 더 긴밀한 통합, 특히 자동화된 실험이 모델 개선을 위한 데이터를 지속적으로 생성하는 폐쇄 루프형 AI 기반 워크플로를 통해 예측과 실제 성능 사이의 간극을 좁히는 데 도움이 될 수 있다고 말했다.