AI 암 병리 도구, 시각적 지름길에 의존할 수도; 정위방사선치료, 뇌전이 예후 개선
University of Warwick 연구에 따르면 현미경 이미지 기반 AI 암 병리 모델은 생물학적 신호보다 통계적 상관관계에 기반한 ‘지름길’에 의존할 수 있어 실제 진료 적용에 대한 우려가 제기된다. 한편 3상 임상시험에서는 다발성 뇌전이 환자에서 정위방사선치료가 해마 회피 전뇌 방사선치료보다 증상과 일상 기능 저하를 유의하게 개선했다.
인공지능(AI) 도구가 현미경 이미지에서 암의 생물학적 특성을 직접 예측하도록 개발되고 있지만, 실제 생물학적 신호가 아니라 숨은 지름길에 의존하고 있을 수 있다는 연구 결과가 Nature Biomedical Engineering에 게재된 University of Warwick의 새 연구에서 제시됐다. 이 결과는 일부 AI 병리 도구가 현재 실제 환자 진료 현장에서 사용하기에는 지나치게 신뢰성이 낮을 수 있다는 우려를 제기한다.
연구진은 유방암, 대장암, 폐암, 자궁내막암 등 4대 주요 암종에 걸친 8,000건 이상의 환자 샘플을 분석하고, 선도적 머신러닝 접근법들의 성능을 비교했다. 모델들은 종종 표면적으로는 높은 정확도를 보였지만, 연구진은 그 성과가 통계적 “지름길(shortcuts)”에서 비롯되는 경우가 많다고 밝혔다.
예를 들어, 모델은 암 관련 BRAF gene의 변이를 탐지하는 대신, BRAF 변이가 microsatellite instability (MSI) 같은 다른 임상적 특징과 함께 나타나는 경우가 많다는 점을 학습할 수 있다. 그러면 시스템은 BRAF 자체의 인과적 신호를 학습하기보다 이러한 단서의 조합을 이용해 BRAF 상태를 예측하게 되며, 그 결과 이러한 바이오마커가 함께 존재할 때에만 예측이 맞고 그렇지 않을 때는 신뢰성이 떨어지게 된다.
고등급 유방암만을 대상으로 하거나 MSI 양성 종양만을 대상으로 하는 등, 층화된 환자 하위군 내에서 AI 모델의 성능을 평가했을 때 정확도는 크게 하락했다. 이는 교란 요인을 통제하면 사라지는 지름길 신호에 모델이 의존하고 있음을 드러낸다.
일부 예측 과제에서 딥러닝이 사람에 의해 도출된 임상 정보에 비해 갖는 성능 우위는 크지 않았다. AI 시스템은 바이오마커 예측에서 80%를 약간 넘는 정확도를 보인 반면, 병리의사가 이미 평가하는 지표인 종양 등급(tumour grade)만 사용했을 때의 정확도는 약 75%였다.
그럼에도 머신러닝 방법은 연구, 신약 개발 후보 스크리닝, 임상 트리아지(triaging), 스크리닝, 혹은 보조적 의사결정 지원에서 여전히 가치가 있을 수 있다. 그러나 연구진은 향후 AI 도구가 상관관계 기반 학습을 넘어, 생물학적 관계와 인과 구조를 명시적으로 모델링하는 접근법을 채택해야 한다고 주장했다. 또한 일상 진료에 배치(deployment)하기 전에 하위군 테스트와 단순 임상 기준선과의 비교를 포함하는 더 강력한 평가 기준이 필요하다고 촉구했다.
뇌전이 치료를 다룬 별도의 연구에서는, 미국 4개 센터에서 수행된 3상 무작위배정 임상시험에서 개별 종양을 표적하는 stereotactic radiation이 hippocampal-avoidance whole brain radiation에 비해 증상 중증도와 일상 기능에 대한 방해 정도를 개선한 것으로 나타났다.
무작위배정된 196명 환자(평균 연령 61세; 여성 129명[66%]; White 176명[90%]; 뇌전이 중앙값 14개[IQR, 11-18]; 이전 신경외과적 절제술 49명[25%]) 중 83명(42%)이 6개월 평가를 완료했다. 적격 환자는 5~20개의 뇌전이가 있으며 이전에 뇌 표적 방사선 치료를 받은 적이 없었다. 등록은 2017년 4월 11일부터 2024년 5월 17일까지 진행됐고(최종 추적관찰 2025년 3월 18일), 연구가 마무리됐다.
1차 평가변수에서, 기저치부터 6개월 추적관찰까지의 사후 평가에서 정위방사선치료는 가중 합성 MD Anderson Symptom Inventory–Brain Tumor score를 2.69에서 2.37로 변화시켰다(평균 변화 −0.32). 반면 해마 회피 전뇌 방사선치료는 2.29에서 3.03으로 변화했다(평균 변화 0.74)(평균 차이 −1.06[95% CI, −1.54~−0.58]; P < .001). 점수 범위는 0~10이며, 점수 변화 범위는 −10~10으로 −10이 최선의 결과를 의미한다. 임상적으로 의미 있는 차이는 0.98로 정의됐다.
관련 3~5등급 이상반응은 정위방사선치료군 12명(12%)과 해마 회피 전뇌 방사선치료군 13명(13%)에서 발생했다. 1~3등급 피로가 가장 흔했다(각각 27명[28%] 대 43명[44%]).
이 임상시험은 ClinicalTrials.gov Identifier: NCT03075072로 등록됐다.