Ferramentas de IA para câncer podem depender de atalhos visuais; radioterapia estereotática melhora desfechos em metástases cerebrais
Novos dados indicam que sistemas de IA em patologia podem alcançar alta acurácia ao explorar “atalhos” estatísticos e correlações entre biomarcadores, e não sinais biológicos causais, o que limita a confiabilidade clínica. Em paralelo, um ensaio clínico de fase 3 mostrou que radioterapia estereotática para múltiplas metástases cerebrais melhorou sintomas e impacto no funcionamento diário versus radioterapia de cérebro inteiro com preservação do hipocampo, com taxas semelhantes de eventos adversos graves.
Ferramentas de inteligência artificial desenvolvidas para prever a biologia do câncer diretamente a partir de imagens ao microscópio podem estar se apoiando em atalhos ocultos, em vez de sinais biológicos genuínos, segundo nova pesquisa da University of Warwick publicada na Nature Biomedical Engineering. Os achados levantam preocupações de que algumas ferramentas de patologia com IA sejam, atualmente, confiáveis demais pouco para o cuidado de pacientes no mundo real.
Os pesquisadores analisaram mais de 8.000 amostras de pacientes em quatro grandes tipos de câncer — mama, colorretal, pulmão e endometrial — e compararam o desempenho de abordagens líderes de aprendizado de máquina. Embora os modelos frequentemente alcançassem alta acurácia em termos gerais, a equipe constatou que isso, muitas vezes, vinha de “atalhos” estatísticos.
Em vez de detectar mutações no gene BRAF associado ao câncer, um modelo pode aprender que mutações em BRAF frequentemente ocorrem junto com outra característica clínica, como instabilidade de microssatélites (MSI). O sistema então aprende a usar essa combinação de pistas para prever o status de BRAF, em vez de aprender o sinal causal de BRAF em si, o que significa que previsões precisas funcionam apenas quando esses biomarcadores coocorrem e se tornam pouco confiáveis quando isso não acontece.
Quando o desempenho dos modelos de IA foi avaliado dentro de subgrupos estratificados de pacientes, como apenas cânceres de mama de alto grau ou apenas tumores MSI-positivos, a acurácia caiu substancialmente, revelando que os modelos dependiam de sinais de atalho que desaparecem quando fatores de confusão são controlados.
Para certas tarefas de predição, a vantagem de desempenho do deep learning sobre informações clínicas derivadas por humanos foi modesta. Sistemas de IA atingiram escores de acurácia de pouco mais de 80% ao prever biomarcadores, em comparação com cerca de 75% usando apenas o grau tumoral — uma medida já avaliada por patologistas.
Métodos de aprendizado de máquina ainda podem se mostrar valiosos para pesquisa, triagem de candidatos no desenvolvimento de medicamentos e para triagem clínica, rastreamento (screening) ou suporte suplementar à decisão. No entanto, os pesquisadores argumentam que futuras ferramentas de IA precisam ir além do aprendizado baseado em correlação e adotar abordagens que modelem explicitamente relações biológicas e estrutura causal. Eles também pedem padrões de avaliação mais rigorosos, incluindo testes por subgrupos e comparação com linhas de base clínicas simples, antes de considerar a implementação no cuidado rotineiro.
Em uma pesquisa separada sobre o tratamento de metástases cerebrais, um ensaio clínico randomizado de fase 3 conduzido em 4 centros nos Estados Unidos constatou que a stereotactic radiation direcionada a tumores individuais melhorou a gravidade dos sintomas e a interferência no funcionamento diário em comparação com a hippocampal-avoidance whole brain radiation.
Dos 196 pacientes randomizados (idade média, 61 anos; 129 [66%] do sexo feminino; 176 [90%] brancos; número mediano de metástases cerebrais, 14 [IQR, 11-18]; 49 [25%] com ressecção neurocirúrgica prévia), 83 (42%) completaram a avaliação de 6 meses. Pacientes elegíveis tinham 5 a 20 metástases cerebrais e não haviam recebido radioterapia prévia dirigida ao cérebro. A inclusão ocorreu entre 11 de abril de 2017 e 17 de maio de 2024 (seguimento final, 18 de março de 2025).
Para o desfecho primário, entre a linha de base e as avaliações pós-linha de base até o seguimento de 6 meses, a stereotactic radiation alterou o escore composto ponderado do MD Anderson Symptom Inventory–Brain Tumor score de 2.69 para 2.37 (mudança média, −0.32) e a hippocampal-avoidance whole brain radiation alterou o escore de 2.29 para 3.03 (mudança média, 0.74) (diferença média, −1.06 [IC 95%, −1.54 a −0.58]; P < .001). A escala varia de 0-10, com variação de mudança do escore de −10 a 10, em que −10 representa o melhor desfecho. Uma diferença clinicamente significativa foi definida como 0.98.
Eventos adversos relacionados de grau 3-5 ocorreram em 12 pacientes (12%) no grupo de stereotactic radiation e 13 pacientes (13%) no grupo de hippocampal-avoidance whole brain radiation; fadiga de grau 1-3 foi a mais frequente (27 [28%] vs 43 [44%], respectivamente).
O ensaio foi registrado como ClinicalTrials.gov Identifier: NCT03075072.