KI-Krebsdiagnostik könnte auf visuelle Abkürzungen setzen; stereotaktische Bestrahlung verbessert Ergebnisse bei Hirnmetastasen

Eine Studie der University of Warwick warnt, dass KI-Systeme in der Pathologie scheinbar hohe Trefferquoten teils über statistische „Abkürzungen“ statt über echte biologische Signale erzielen, was ihre Zuverlässigkeit im klinischen Alltag einschränken kann. Separat zeigt eine Phase-3-Studie, dass stereotaktische Bestrahlung bei 5–20 Hirnmetastasen die Symptome und Alltagsbeeinträchtigung gegenüber hippocampusschonender Ganzhirnbestrahlung verbessert, bei ähnlicher Rate schwerer Nebenwirkungen.

Tools der künstlichen Intelligenz, die entwickelt wurden, um Krebsbiologie direkt aus Mikroskopbildern vorherzusagen, könnten sich eher auf verborgene Abkürzungen als auf echte biologische Signale stützen, so eine neue Studie der University of Warwick, veröffentlicht in Nature Biomedical Engineering. Die Ergebnisse werfen die Frage auf, ob einige KI-Pathologie-Tools derzeit für die Versorgung von Patientinnen und Patienten in der Praxis zu unzuverlässig sind.

Die Forschenden analysierten mehr als 8.000 Patientenproben aus vier großen Krebsarten – Brust-, Kolorektal-, Lungen- und Endometriumkarzinom – und verglichen die Leistung führender Machine-Learning-Ansätze. Zwar erzielten die Modelle häufig eine hohe, plakative Gesamtgenauigkeit, doch stellte das Team fest, dass diese oft aus statistischen „Abkürzungen“ resultierte.

Anstatt Mutationen im krebsassoziierten BRAF gene zu erkennen, könnte ein Modell etwa lernen, dass BRAF-Mutationen häufig zusammen mit einem anderen klinischen Merkmal wie microsatellite instability (MSI) auftreten. Das System lernt dann, diese Kombination von Hinweisen zu nutzen, um den BRAF-Status vorherzusagen, statt das kausale BRAF-Signal selbst zu erlernen. Damit funktionieren präzise Krebsprognosen nur, wenn diese Biomarker gemeinsam auftreten, und werden unzuverlässig, wenn dies nicht der Fall ist.

Wurde die Leistung der KI-Modelle innerhalb stratifizierter Patientensubgruppen bewertet, etwa nur bei hochgradigen Brustkrebsfällen oder nur bei MSI-positiven Tumoren, sank die Genauigkeit deutlich. Das zeigte, dass die Modelle von Abkürzungssignalen abhängig waren, die verschwinden, sobald Störfaktoren kontrolliert werden.

Für bestimmte Vorhersageaufgaben war der Leistungsvorteil von Deep Learning gegenüber aus klinischen Informationen abgeleiteten, von Menschen erstellten Daten nur gering. KI-Systeme erzielten Genauigkeitswerte von knapp über 80% bei der Vorhersage von Biomarkern, verglichen mit etwa 75% bei Verwendung allein des Tumorgrades – eines Maßes, das bereits von Pathologinnen und Pathologen beurteilt wird.

Machine-Learning-Methoden können weiterhin für Forschung, das Screening von Kandidaten in der Arzneimittelentwicklung sowie für klinische Triage, Screening oder ergänzende Entscheidungsunterstützung wertvoll sein. Die Forschenden argumentieren jedoch, dass zukünftige KI-Tools über korrelationsbasiertes Lernen hinausgehen und Ansätze übernehmen müssen, die biologische Beziehungen und kausale Struktur explizit modellieren. Außerdem fordern sie strengere Evaluationsstandards, darunter Subgruppentests und den Vergleich mit einfachen klinischen Baselines, bevor an einen Einsatz in der Routineversorgung zu denken ist.

In einer separaten Studie zur Behandlung von Hirnmetastasen zeigte eine randomisierte klinische Phase-3-Studie an 4 Zentren in den Vereinigten Staaten, dass stereotactic radiation, die auf einzelne Tumoren abzielt, die Symptomschwere und die Beeinträchtigung der Alltagsfunktion im Vergleich zu hippocampal-avoidance whole brain radiation verbesserte.

Von 196 randomisierten Patientinnen und Patienten (mittleres Alter 61 Jahre; 129 [66%] weiblich; 176 [90%] White; mediane Zahl der Hirnmetastasen 14 [IQR, 11–18]; 49 [25%] mit vorheriger neurochirurgischer Resektion) schlossen 83 (42%) die 6-Monats-Bewertung ab. Geeignete Patientinnen und Patienten hatten 5 bis 20 Hirnmetastasen und keine vorherige hirngerichtete Bestrahlung. Die Rekrutierung erfolgte zwischen dem 11. April 2017 und dem 17. Mai 2024 (letztes Follow-up 18. März 2025).

Beim primären Endpunkt veränderte stereotaktische Bestrahlung zwischen Baseline und den postbaseline Messungen bis zum 6-Monats-Follow-up den gewichteten zusammengesetzten MD Anderson Symptom Inventory–Brain Tumor score von 2,69 auf 2,37 (mittlere Veränderung −0,32), und hippocampusschonende Ganzhirnbestrahlung veränderte den Score von 2,29 auf 3,03 (mittlere Veränderung 0,74) (mittlere Differenz −1,06 [95% KI, −1,54 bis −0,58]; P < .001). Die Skala reicht von 0–10, mit einem Bereich der Score-Veränderung von −10 bis 10, wobei −10 das beste Ergebnis darstellt. Eine klinisch bedeutsame Differenz wurde als 0,98 definiert.

Damit zusammenhängende Nebenwirkungen vom Grad 3–5 traten bei 12 Patientinnen und Patienten (12%) in der Gruppe mit stereotaktischer Bestrahlung und bei 13 Patientinnen und Patienten (13%) in der Gruppe mit hippocampusschonender Ganzhirnbestrahlung auf; Fatigue vom Grad 1–3 war am häufigsten (27 [28%] vs 43 [44%], jeweils).

Die Studie wurde registriert als ClinicalTrials.gov Identifier: NCT03075072.

Related Entities

Related Articles

References

  1. AI cancer tools may be using visual shortcuts rather than true biology - News-Medical · news-medical.net
  2. Treatment for Brain Metastases With Stereotactic Radiation vs Hippocampal-Avoidance ... · jamanetwork.com
  3. Highlighting Emerging Technologies in CNS Radiation Oncology - CancerNetwork · cancernetwork.com