IA em saúde não precisa ser maior — precisa raciocinar melhor

12 de maio de 2026 A. Lima

Há uma crença que dominou os últimos anos no desenvolvimento de inteligência artificial em saúde: modelos maiores, treinados com mais dados, inevitavelmente seriam mais úteis na clínica. Três estudos publicados em maio de 2026 no npj Digital Medicine, periódico da Nature, desafiam essa lógica de formas distintas e complementares. Juntos, eles sugerem que a maturidade da inteligência artificial aplicada ao raciocínio clínico não se mede em número de parâmetros, mas na capacidade de responder perguntas que o médico, o enfermeiro e o paciente realmente precisam que sejam respondidas.

O problema com “escala por escala” na IA oftalmológica

Imagine que você quer contratar um consultor para ajudar a diagnosticar doenças da retina. Você tem duas opções: o primeiro leu tudo o que existe sobre o assunto — milhões de imagens, artigos, relatórios — mas responde de forma genérica, sem entender a lógica que conecta os achados ao diagnóstico. O segundo leu menos, mas raciocina como um oftalmologista experiente: sabe por que certos padrões importam, em que contexto clínico eles aparecem, e quando um achado isolado não significa nada sem os outros.

Essa é, em essência, a tensão que um artigo de perspectiva publicado no npj Digital Medicine coloca sobre a IA em oftalmologia. Durante anos, a área investiu em escalar modelos — redes neurais cada vez maiores, conjuntos de dados cada vez mais volumosos — partindo do pressuposto de que mais dados corrigiriam os erros. No entanto, os pesquisadores argumentam que o gargalo hoje não é volume de dados: é a ausência de raciocínio clínico estruturado nos modelos.

Em outras palavras, um algoritmo pode aprender a identificar uma lesão retiniana com alta acurácia estatística e ainda assim falhar ao integrar essa informação com a idade do paciente, o tempo de evolução da doença e os medicamentos em uso. Afinal, o raciocínio clínico não é uma lista de achados — é uma narrativa sobre o paciente. E, consequentemente, sistemas que não incorporam essa estrutura narrativa tendem a ser menos úteis na prática do que os números de validação sugerem.

O artigo não apresenta um novo modelo. Apresenta um argumento: que o campo precisa reorientar suas prioridades, saindo do “quantos dados podemos usar” para “que perguntas clínicas queremos que o modelo responda”. É uma distinção que parece óbvia, mas raramente guia o desenvolvimento real de sistemas de IA diagnóstica.

Quando a tecnologia precisa medir o que dói, não só o que aparece no exame

Em oncologia pediátrica e de adultos jovens, há um problema que os exames de imagem não conseguem capturar: o sofrimento psicológico. Ansiedade, depressão, isolamento social — esses desfechos são tão determinantes para a qualidade de vida quanto a resposta tumoral ao tratamento. No entanto, historicamente, ficam fora dos protocolos de monitoramento tecnológico.

Uma revisão sistemática e meta-análise publicada no mesmo periódico investigou intervenções de saúde digital — aplicativos, plataformas de telessaúde, programas baseados em dispositivos móveis — voltadas para desfechos psicológicos em adolescentes e jovens adultos com câncer. O recorte etário não é arbitrário: essa população enfrenta o diagnóstico em um momento crítico de desenvolvimento, com impacto específico sobre identidade, relações sociais e perspectivas de futuro.

A meta-análise agrega resultados de múltiplos estudos para estimar o efeito médio dessas intervenções — uma técnica que, por um lado, aumenta o poder estatístico, mas, por outro, exige cautela porque combina intervenções tecnológicas muito diferentes entre si. Ainda assim, a análise oferece evidência de que ferramentas digitais podem produzir benefício mensurável em desfechos psicológicos nessa população, o que tem implicações diretas para como sistemas de saúde — incluindo o SUS — devem pensar a integração de saúde mental ao acompanhamento oncológico.

Por outro lado, é importante nomear o que a meta-análise não resolve: a maioria dos estudos incluídos foi conduzida em países de alta renda, com infraestrutura digital consolidada. Portanto, a extrapolação direta para contextos brasileiros — especialmente regiões com acesso desigual à internet e a dispositivos — exige cautela. A tecnologia pode funcionar. A questão é para quem ela funciona, e em que condições.

Prever o futuro de quem tem várias doenças ao mesmo tempo — e por que isso é difícil

Na atenção primária à saúde, um fenômeno crescente desafia os modelos preditivos tradicionais: a multimorbidade. Um paciente de 60 anos pode ter diabetes, hipertensão, insuficiência renal leve e risco cardiovascular elevado ao mesmo tempo. Quando um modelo de IA tenta prever “qual será o desfecho desse paciente”, precisa lidar com o fato de que múltiplas condições competem entre si — uma pode progredir antes da outra, ou uma pode modificar o curso da outra.

Isso é o que os estatísticos chamam de “riscos competitivos”: eventos que podem ocorrer antes do desfecho de interesse, alterando a probabilidade de que esse desfecho se concretize. Modelos convencionais de sobrevivência tendem a ignorar essa competição, o que gera estimativas distorcidas — às vezes perigosamente otimistas ou pessimistas.

O SurvivEHR, apresentado em um terceiro artigo do mesmo periódico, é um modelo fundacional treinado a partir de prontuários eletrônicos — EHR, do inglês electronic health record — de atenção primária no Reino Unido. Ele foi construído especificamente para modelar múltiplas condições crônicas simultaneamente, incorporando a estrutura de riscos competitivos. Em vez de perguntar “quando esse paciente vai desenvolver insuficiência renal?”, o modelo pergunta “dado tudo que sabemos sobre esse paciente — incluindo suas outras condições — como os diferentes desfechos possíveis se organizam ao longo do tempo?”

O resultado é uma ferramenta que, ao menos no contexto em que foi testada, oferece estimativas mais realistas sobre trajetórias de saúde de longo prazo. De fato, essa capacidade tem valor direto para o planejamento de cuidados: saber que um paciente tem alta probabilidade de progressão renal nos próximos três anos pode orientar decisões sobre medicação, frequência de consultas e encaminhamentos — antes que a crise aconteça.

No entanto, é preciso dizer o que ainda não se sabe: o modelo foi validado em uma população britânica, em um sistema de atenção primária com características específicas. Sua performance em populações brasileiras — com perfis de multimorbidade diferentes, padrões de registro em prontuário distintos e infraestrutura de dados heterogênea — é uma questão em aberto. Além disso, a aprovação regulatória pela ANVISA para uso clínico de modelos dessa natureza no Brasil seguiria os critérios estabelecidos na RDC 509/2021, que regula produtos de saúde baseados em software com aprendizado de máquina.

O que esses três estudos dizem juntos sobre o momento da medicina digital

Lidos separadamente, cada artigo fala sobre uma especialidade ou problema específico. Lidos juntos, eles descrevem algo mais amplo: a IA em saúde está entrando em uma fase de maior maturidade crítica.

Na primeira fase — que ainda não terminou — o campo se concentrou em demonstrar que algoritmos conseguem detectar doenças com acurácia comparável à de especialistas. Isso foi importante. No entanto, essa demonstração de desempenho técnico não se traduziu automaticamente em impacto clínico real. Modelos foram validados em condições de laboratório e tiveram desempenho decepcionante quando chegaram ao mundo real, com seus ruídos, suas populações diversas e suas perguntas clínicas mal formuladas.

O que os três estudos de maio de 2026 sugerem, cada um à sua maneira, é que o campo está reconhecendo esse problema. Raciocínio clínico estruturado, medição de desfechos que importam para o paciente, modelagem que respeita a complexidade biológica real — esses não são refinamentos superficiais. São mudanças de orientação que afetam diretamente a utilidade prática das ferramentas.

Para profissionais de saúde, engenheiros clínicos e gestores de tecnologia hospitalar, isso tem uma implicação concreta: ao avaliar uma solução de IA para adoção institucional, a pergunta relevante não é “qual é a acurácia desse modelo?”, mas sim “esse modelo foi construído para responder as perguntas que eu realmente faço sobre meus pacientes?” São perguntas diferentes. E, consequentemente, levam a decisões de compra e implementação muito diferentes.

A SBIS (Sociedade Brasileira de Informática em Saúde) e a ABEC (Associação Brasileira de Engenharia Clínica) têm papel importante nesse processo de avaliação crítica, especialmente em um cenário em que a oferta de soluções de IA para saúde cresce mais rápido do que a capacidade institucional de avaliá-las com rigor. Afinal, escolher mal uma tecnologia em saúde não é apenas um problema financeiro — é um problema clínico.

Baseado em três artigos publicados no npj Digital Medicine (Nature):

1. “Rethinking scale in ophthalmic artificial intelligence: from bigger models to smarter clinical reasoning”, publicado em 10 mai. 2026. Link: https://www.nature.com/articles/s41746-026-02755-7

2. “Digital health interventions for psychological outcomes among adolescents and young adults with cancer: a systematic review and meta-analysis”, publicado em 09 mai. 2026. Link: https://www.nature.com/articles/s41746-026-02719-x

3. “SurvivEHR: a competing risks, time-to-event foundation model for multiple long-term conditions from primary care electronic health records”, publicado em 09 mai. 2026. Link: https://www.nature.com/articles/s41746-026-02709-z

Conteúdo informativo. Não substitui avaliação médica ou aconselhamento profissional de saúde.

Imagem conceitual gerada por IA (DALL-E 3)