Quando a IA resume o prontuário do paciente, o que ela acerta — e onde ela erra de forma perigosa?

14 de maio de 2026 A. Lima

Imagine que, ao final de cada internação, alguém precisasse ler dezenas de páginas de evoluções, exames e notas médicas para escrever um resumo coerente que seguirá o paciente para o médico de família, para o especialista, para o próximo hospital. Esse documento — a carta de alta — é um dos pontos mais críticos na continuidade do cuidado. O processamento de linguagem natural (PLN, ou NLP em inglês) tem sido proposto como aliado nessa tarefa, e dois estudos publicados em maio de 2026 no JMIR Medical Informatics ajudam a entender, com dados concretos, onde essa promessa se sustenta e onde ela ainda vacila.

O problema que nenhum sistema de saúde resolveu ainda

A documentação clínica é, ao mesmo tempo, o maior repositório de informação sobre um paciente e uma das maiores fontes de erros na transição de cuidado. Quando um paciente recebe alta hospitalar, o médico que o receberá ambulatorialmente depende da carta de alta para entender o que aconteceu: diagnóstico, procedimentos realizados, medicamentos prescritos, orientações de seguimento. Se essa carta estiver incompleta, mal formatada ou — pior — contiver informações incorretas, o próximo profissional tomará decisões baseadas em premissas erradas.

No caso das notas cirúrgicas, o problema é diferente, mas igualmente trabalhoso. Para pesquisa em resultados cirúrgicos, é necessário classificar retrospectivamente centenas ou milhares de cirurgias por tipo de procedimento, subtipo e técnica específica utilizada. Os códigos padronizados existentes — como os códigos CPT, do sistema americano de terminologia procedural — são notoriamente genéricos demais para distinguir, por exemplo, qual técnica de correção de lábio leporino foi empregada. Isso significa que alguém precisa ler cada nota manualmente. Em um hospital de grande volume, isso se torna inviável.

Esses dois cenários distintos — resumir cartas de alta e classificar notas operatórias — foram objeto dos dois estudos. Juntos, eles oferecem um panorama realista do estado atual do PLN aplicado à documentação médica.

Como a IA lê — e o que ela entende de verdade

O primeiro estudo avaliou o GPT-4o, modelo de linguagem da OpenAI, na tarefa de resumir cartas de alta hospitalar em holandês, no contexto de hospitais belgas. Trinta e um clínicos de diferentes especialidades avaliaram os resumos gerados pelo modelo a partir de trinta cartas sintéticas — criadas por especialistas para representar casos realistas, mas sem expor dados reais de pacientes.

Os resultados revelam uma divisão interessante. Na dimensão do formato — se o resumo seguiu a estrutura esperada, se as seções estavam presentes, se a organização era adequada — o desempenho foi alto: 88% de aderência. Em outras palavras, o modelo aprendeu bem como um documento clínico deve parecer. O problema aparece quando se olha para o conteúdo. A taxa de respostas positivas para itens de conteúdo foi de 78% em média, um número que soa razoável até que se leia o dado específico sobre medicamentos.

A seção de medicação foi, de longe, a mais problemática. Foi lá que apareceram as maiores taxas de alucinação — o fenômeno em que o modelo gera informações que simplesmente não existem na fonte original — e o menor grau de concordância entre os avaliadores. Isso não é um detalhe menor. Medicamentos errados ou omitidos em uma carta de alta podem resultar em duplicação de doses, interações perigosas ou descontinuação inadvertida de terapias essenciais.

O segundo estudo trabalhou com uma abordagem diferente e uma tarefa mais estruturada. Pesquisadores de um único centro médico acadêmico utilizaram aprendizado de máquina — especificamente o método chamado floresta aleatória com classificação um-contra-todos — para classificar automaticamente 630 notas operatórias de 311 pacientes pediátricos submetidos a cirurgias craniofaciais e de fissura labiopalatal entre 2016 e 2024. As notas foram transformadas em representações numéricas usando uma técnica chamada TF-IDF (frequência do termo ajustada pela raridade no corpus), que essencialmente diz ao modelo quais palavras são informativas para distinguir uma cirurgia da outra.

O modelo foi avaliado em três níveis hierárquicos: tipo primário de procedimento, subtipo (se era uma cirurgia primária ou revisão) e técnica cirúrgica específica. No nível primário, o desempenho foi sólido: AUC (área sob a curva ROC, uma medida de capacidade discriminativa onde 1,0 é perfeito e 0,5 equivale a um chute aleatório) de 0,93. Para classificar revisões de lábio leporino, o modelo atingiu AUC de 1,0. No entanto, quando tentou distinguir entre cirurgias primárias e revisões de enxerto ósseo alveolar, o AUC caiu para 0,49 — praticamente inútil, equivalente a sortear uma moeda.

Os limites que os números revelam — e os que ainda estão por descobrir

Os dois estudos têm mérito justamente por serem honestos sobre suas limitações. No estudo das cartas de alta, a concordância entre avaliadores foi moderada no nível individual dos itens (coeficiente kappa de Cohen mediano de 0,36, em uma escala onde 1,0 seria concordância perfeita). Isso significa que clínicos diferentes avaliaram os mesmos resumos de formas bastante distintas — o que por si só é uma informação valiosa: se especialistas humanos discordam sobre o que é uma boa carta de alta, qualquer sistema automatizado herdará essa ambiguidade.

Por outro lado, quando se olha para a consistência global das avaliações — ou seja, se os avaliadores tendiam a dar pontuações altas ou baixas para as mesmas cartas — o índice ICC (coeficiente de correlação intraclasse) foi de 0,945, muito alto. Em outras palavras, os clínicos concordavam sobre quais resumos eram bons e quais eram ruins, mesmo que discordassem nos detalhes específicos. Isso sugere que o modelo tem real potencial de uso, desde que haja supervisão humana.

No estudo das notas cirúrgicas, a falha na classificação de revisões de enxerto ósseo aponta para um problema estrutural: quando há poucos exemplos de uma categoria no conjunto de treinamento, o modelo não consegue aprender a distingui-la. Os pesquisadores tentaram contornar isso com notas sintéticas, uma estratégia válida, mas que também introduz vieses desconhecidos. Além disso, trata-se de um estudo de instituição única, com um conjunto de dados relativamente pequeno — 630 notas — o que limita a generalização para outros centros com estilos de ditação diferentes.

Nenhum dos dois estudos aborda questões de equidade. Não sabemos, por exemplo, como esses sistemas se comportariam com pacientes de menor escolaridade cujos históricos são documentados de forma menos padronizada, ou em contextos de saúde pública com recursos documentais mais escassos. No Brasil, onde a interoperabilidade entre sistemas de saúde ainda é fragmentada e a adoção do prontuário eletrônico é desigual, essas questões ganham peso adicional. A ANVISA e o CFM ainda estão desenvolvendo marcos regulatórios mais específicos para IA em documentação clínica — a RDC 509/2021 oferece uma base, mas a aplicação prática a modelos de linguagem em contexto clínico ainda carece de detalhamento.

O que esses resultados significam para quem trabalha na linha de frente

Para o médico que recebe uma carta de alta gerada por IA, a mensagem prática é clara: leia a seção de medicamentos com atenção redobrada. Não porque o modelo seja inútil — ele demonstrou desempenho razoável em estrutura e em contexto histórico —, mas porque é exatamente ali que as falhas têm maior potencial de dano. A automação, nesse caso, func

Imagem conceitual gerada por IA (GPT Image 1)