Roche, Blackwell GPU 3,500개로 제약업계 최대 규모 주장
Roche는 미국과 유럽에 온프레미스 NVIDIA Blackwell GPU 2,176개를 추가 배치해, 온프레미스·클라우드를 합산한 Blackwell GPU 총량이 3,500개를 넘었다고 밝혔다. 이는 Eli Lilly의 1,016-GPU LillyPod, Recursion Pharmaceuticals의 504-GPU BioHive-2 공개 이후 제약업계의 AI 인프라 경쟁이 한층 가속화되고 있음을 보여준다.
Roche는 미국과 유럽 전역에 온프레미스 NVIDIA Blackwell GPU 2,176개를 새로 구축해, 온프레미스와 클라우드 인프라를 합친 Blackwell GPU 총량을 3,500개 이상으로 끌어올렸다고 밝혔다. 회사는 이를 제약사가 이용할 수 있다고 공개적으로 발표된 GPU 풋프린트 가운데 최대 규모라고 주장한다. 2023년에 시작된 NVIDIA와의 전략적 협력을 확장한 이번 증설은, Eli Lilly가 자사가 전적으로 소유·운영하는 제약사 중 가장 강력한 AI 팩토리라고 부른 1,016-GPU 슈퍼컴퓨터 LillyPod를 가동한 지 3주도 채 지나지 않아 이뤄졌다.
Roche의 주장은 하이브리드 클라우드 용량을 포함하지만, Lilly의 주장은 자사가 전적으로 소유한 하드웨어로 한정된다. 기술적으로 서로 다른 기준이다.
2024년 5월, Recursion Pharmaceuticals는 제약업계 최대라고 부른 504-GPU 슈퍼컴퓨터 BioHive-2를 공개했다. 거의 2년 뒤 Roche는 그 수의 약 7배에 가까운 규모에 도달했다고 주장하지만, 이처럼 부상하는 GPU 군비경쟁에 참여한 어느 회사도 자사의 AI 인프라를 특정 임상 후보물질과 공개적으로 연결해 제시하지는 않았다.
Roche, Lilly, Recursion의 GPU 합계는 이제 5,000개를 넘지만, 단순 총량은 중요한 차이를 가린다. Recursion의 BioHive-2는 구형 H100 GPU로 구동되는 반면, Lilly의 시스템은 차세대 Blackwell Ultra 칩을 사용하고 Roche의 구축은 표준 Blackwell 하드웨어를 사용한다. Recursion은 최소한 구체적 산출물을 제시할 수 있다. BioHive-2에서 학습된 Boltz-2 생체분자 파운데이션 모델로, 물리 기반 방법에 필적하는 정확도로 단백질 결합 친화도를 예측한다. Roche와 Lilly는 이에 상응하는 결과물을 공개적으로 명명하지 않았다.
Genentech Research and Early Development의 EVP 겸 책임자인 Aviv Regev는 이번 컴퓨팅 확장이 Roche의 과학자들이 “더 정교한 예측형 프런티어 모델을 구축”할 수 있게 하고, Roche가 Lab-in-the-Loop 전략이라고 부르는 접근을 통해 생물학적 발견에서 승인 의약품까지의 타임라인을 압축할 것이라고 말했다. 이는 생물학 및 화학 실험을 AI 모델과 직접 연결하는 방식이며, Regev는 Roche가 5년 넘게 이를 추구해 왔다고 했다.
GTC 2026에 앞선 NVIDIA 사전 브리핑에서, NVIDIA 헬스케어 및 생명과학 부문 VP Kimberly Powell은 Roche의 자회사 Genentech에서 대상이 되는 소분자 프로그램의 거의 90%가 이제 AI를 통합하고 있으며, 한 종양학 분자는 25% 더 빠르게 설계됐고 백업 약물 후보는 7개월 만에 제공됐다고 말했다. 전통적으로 이 과정은 2년 이상 걸리는 경우가 많다.
Eli Lilly에서 20년 이상 근무했고 Zoetis에서 CDTO로 재직한 뒤 2025년 2월 최고 디지털 기술 책임자(CDTO)로 합류한 Wafaa Mamilli는 목표가 의약품 개발과 제조에서 진단 및 상업화에 이르기까지 “전체 가치사슬 전반에 AI를 내재화”하는 것이라고 말했다. 보도자료는 신약 발굴을 위한 NVIDIA BioNeMo, 제조 디지털 트윈을 위한 Omniverse, 유전체학을 위한 Parabricks, 의료 등급 대화형 AI를 위한 NeMo Guardrails를 언급한다. 눈에 띄게 빠진 것은 투자 금액, 특정 질환 영역의 명시, 또는 구체적인 파이프라인 프로그램이다.
참고로, 제약업계의 GPU 군비경쟁은 더 광범위한 AI 산업의 기준으로 보면 반올림 오차 수준에 가깝다. Elon Musk의 xAI는 2025년 초 멤피스의 Colossus 클러스터에서 200,000개의 GPU로 시작했으며, 이후 3개 시설에 걸쳐 500,000개 이상으로 확장했고 1,000,000개까지의 로드맵을 제시했다. Meta는 NVIDIA와 수백만 개의 칩 공급 계약을 체결해, 루이지애나 농촌 지역에 건설 중인 5기가와트 시설을 포함한 데이터센터를 채울 계획이다.