AIがん病理ツールは視覚的ショートカットに依存の恐れ;定位放射線治療が脳転移の転帰を改善
Nature Biomedical Engineeringに掲載された研究により、顕微鏡画像からがんバイオマーカーを予測するAI病理システムが、生物学的シグナルではなく統計的な「ショートカット」に依存している可能性が示された。別の第3相試験では、5〜20個の脳転移を有する患者で、stereotactic radiationがhippocampal-avoidance whole brain radiationより症状と生活機能への影響を改善した。
人工知能(AI)を用いて顕微鏡画像からがんの生物学的特性を直接予測するツールは、真の生物学的シグナルではなく、隠れたショートカットに依存している可能性がある。Nature Biomedical Engineeringに掲載されたUniversity of Warwickの新たな研究がそう警告する。この所見は、一部のAI病理ツールが現時点では実臨床の患者ケアに用いるには信頼性が低すぎる懸念を提起する。
研究チームは、乳がん、大腸がん、肺がん、子宮内膜がんの4つの主要ながん種にわたる8,000例超の患者サンプルを解析し、主要な機械学習アプローチの性能を比較した。モデルは見かけ上高い正解率を示すことが多かったが、その多くは統計的な「ショートカット」によってもたらされていることが明らかになった。
例えば、がん関連のBRAF geneにおける変異を検出する代わりに、あるモデルはBRAF変異が**microsatellite instability (MSI)**など別の臨床的特徴と併発しやすいことを学習するかもしれない。その場合、システムはBRAFそのものの因果的シグナルを学習するのではなく、この手がかりの組み合わせでBRAFの状態を予測するようになる。つまり、これらのバイオマーカーが同時に存在する状況でのみ予測が当たりやすく、そうでない場合には信頼性が低下することを意味する。
高悪性度の乳がんのみ、あるいはMSI陽性腫瘍のみといった層別化した患者サブグループ内でAIモデルの性能を評価すると、正解率は大きく低下した。交絡因子を制御すると消失するショートカット・シグナルにモデルが依存していたことが示された。
特定の予測課題では、深層学習が病理医由来の臨床情報に対して示す性能上の優位性は限定的だった。AIシステムによるバイオマーカー予測の正解率は80%強にとどまり、腫瘍グレードのみ(病理医がすでに評価している指標)を用いた場合の約75%と比較してわずかな差であった。
機械学習手法は、それでも研究、創薬候補のスクリーニング、臨床でのトリアージ、スクリーニング、補助的な意思決定支援において有用となり得る。しかし研究者らは、将来のAIツールは相関に基づく学習を超え、生物学的関係性と因果構造を明示的にモデル化するアプローチを採用すべきだと主張する。また、ルーチンケアへの導入を検討する前に、サブグループ検証や単純な臨床ベースラインとの比較を含む、より強固な評価基準が必要だとも訴えている。
脳転移治療を扱った別の研究では、米国の4施設で実施された第3相ランダム化臨床試験により、個々の腫瘍を標的とするstereotactic radiationが、hippocampal-avoidance whole brain radiationと比べて、症状の重症度および日常生活機能への支障を改善することが示された。
ランダム化された196人(平均年齢61歳;女性129人[66%];White 176人[90%];脳転移数の中央値14[IQR 11-18];既往の脳神経外科的切除49人[25%])のうち、6カ月時点の評価を完了したのは83人(42%)だった。適格基準は脳転移が5〜20個で、脳を標的とした放射線治療歴がないこと。登録は2017年4月11日から2024年5月17日にかけて行われ(最終追跡2025年3月18日)、最終フォローアップは2025年3月18日だった。
主要評価項目として、ベースラインからベースライン後評価を経て6カ月フォローアップまでの間に、stereotactic radiationでは加重合成MD Anderson Symptom Inventory–Brain Tumor scoreが2.69から2.37へ変化し(平均変化−0.32)、hippocampal-avoidance whole brain radiationでは2.29から3.03へ変化した(平均変化0.74)(平均差−1.06[95% CI −1.54〜−0.58];P < .001)。尺度は0〜10で、スコア変化の範囲は−10〜10であり、−10が最良の転帰を示す。臨床的に意味のある差は0.98と定義された。
関連するグレード3〜5の有害事象は、stereotactic radiation群で12人(12%)、hippocampal-avoidance whole brain radiation群で13人(13%)に発生した。グレード1〜3の疲労が最も多く(それぞれ27人[28%] vs 43人[44%])、頻度が高かった。
本試験はClinicalTrials.gov Identifier: NCT03075072として登録された。