Tecnologia em Saúde

O que acontece quando um algoritmo lê milhões de anotações médicas antes de você chegar ao hospital?

O processamento de linguagem natural em saúde — PLN, do inglês Natural Language Processing ou NLP — é a área que ensina computadores a ler, interpretar e organizar textos escritos por humanos. Três estudos publicados recentemente no JMIR Medical Informatics mostram, cada um a seu modo, o que acontece quando essa tecnologia encontra os bastidores dos hospitais: anotações de enfermagem, laudos cirúrgicos, históricos de internação. O que emerge não é uma promessa futurista, mas um conjunto de ferramentas ainda incompletas — e honestidade sobre isso é exatamente o que torna esses trabalhos valiosos.

O problema que nenhum médico consegue resolver sozinho

Imagine que você é um plantonista de UTI e acaba de receber um paciente com suspeita de sepse — aquela resposta inflamatória grave do organismo a uma infecção bacteriana que, se não tratada rapidamente, pode ser fatal. Você precisa escolher um antibiótico agora. Não amanhã, quando o resultado da cultura bacteriana chegar. Agora.

Essa escolha, chamada de terapia empírica, é uma das mais difíceis da medicina intensiva. O médico precisa considerar o foco provável da infecção, o histórico de internações anteriores do paciente, se ele viajou recentemente para regiões com bactérias resistentes, se trabalha em ambiente de saúde, quais antibióticos já usou. São dezenas de variáveis, e o tempo disponível é curto.

Um grupo de pesquisadores alemães tentou construir exatamente isso: um CDSS — Clinical Decision Support System, ou sistema de apoio à decisão clínica — capaz de sugerir antibióticos para pacientes com sepse internados em UTI. Para isso, entrevistaram médicos, coletaram dados reais de internações e treinaram modelos estatísticos. O resultado foi, ao mesmo tempo, instrutivo e humilde: os modelos apresentaram capacidade preditiva predominantemente fraca para a maioria das terapias avaliadas.

Por que falhou? Aqui está o ponto mais importante do estudo: os dados disponíveis refletiam os hábitos de prescrição dos médicos — não as decisões ideais. Em outras palavras, o algoritmo aprendeu a imitar o que os médicos fazem, incluindo os erros e as inconsistências. É como treinar um cozinheiro copiando receitas de restaurantes ruins. Ele vai reproduzir fielmente o problema, não a solução. Além disso, os pesquisadores apontaram descontinuidade nos registros, ausência de informações padronizadas e quantidade insuficiente de dados de alta qualidade — limitações que nenhum algoritmo consegue contornar sozinho.

Ainda assim, o estudo tem valor justamente porque documenta esses obstáculos com rigor. A colaboração interprofissional entre cientistas de dados, médicos e especialistas em infecção foi apontada como condição indispensável — não um bônus — para que sistemas desse tipo um dia funcionem.

Quando o algoritmo precisa aprender a separar o joio do trigo

Um segundo problema, menos visível mas igualmente real, acontece antes mesmo de qualquer decisão clínica: os modelos de linguagem precisam saber o que vale a pena ler.

Pense em uma biblioteca com um milhão de livros. Você quer estudar doenças pulmonares obstrutivas crônicas — a DPOC, condição que estreita as vias aéreas e dificulta a respiração de milhões de brasileiros. O problema é que a maioria dos livros dessa biblioteca fala de outras coisas. Se você treinar seu algoritmo com todo o acervo sem filtrar, ele vai aprender muito sobre assuntos irrelevantes e ficar confuso na hora de responder perguntas sobre pulmão.

É exatamente esse o desafio que pesquisadores abordaram no segundo estudo: como identificar, de forma eficiente e escalável, quais documentos de prontuários eletrônicos são clinicamente relevantes para DPOC antes de submetê-los a modelos mais sofisticados — e mais custosos computacionalmente.

A solução encontrada combinou representação vetorial leve de documentos (uma técnica que transforma texto em números que capturam o significado das palavras) com um classificador chamado random forest — uma floresta de decisões que vota em conjunto para classificar cada documento. Essa combinação atingiu precisão de 0,73 e recall — a taxa de recuperação de documentos relevantes — de 0,86, com F-score de 0,80. Para quem não está acostumado com essas métricas: pense no recall como a capacidade de não perder documentos importantes. Um recall de 0,86 significa que o modelo deixou de capturar apenas 14% dos registros relevantes — desempenho consideravelmente superior à linha de base heurística, que tinha recall de apenas 0,38.

O ponto prático aqui é eficiência. Modelos grandes de linguagem consomem muito processamento e custo computacional. Se você consegue filtrar 80% do ruído antes de acioná-los, todo o sistema fica mais rápido, mais barato e menos propenso a gerar o que os pesquisadores chamam de “alucinações” — respostas plausíveis, mas factualmente incorretas, que modelos de linguagem produzem quando alimentados com dados irrelevantes.

Classificar cirurgias lendo anotações — e onde isso ainda tropeça

O terceiro estudo muda de contexto, mas aprofunda a mesma questão central: o que o PLN consegue fazer com textos clínicos não estruturados, e onde ele ainda escorrega?

Cirurgias de lábio leporino, fenda palatina e anomalias craniofaciais em crianças são procedimentos complexos, com variações técnicas sutis que importam muito para pesquisa de resultados cirúrgicos. O problema é que os códigos administrativos usados para classificar essas cirurgias — os chamados códigos CPT, do sistema norte-americano — são genéricos demais. Para saber exatamente o que foi feito, é preciso ler a anotação cirúrgica, o chamado “dictation”, escrita pelo cirurgião após o procedimento.

Fazer isso manualmente para centenas de casos é inviável. Os pesquisadores desenvolveram, portanto, um modelo de PLN capaz de classificar essas notas automaticamente em três níveis de detalhe: tipo de procedimento principal, se foi primário ou revisão, e qual técnica cirúrgica específica foi utilizada.

Os resultados foram desiguais — e isso é informativo. Para classificar o tipo de procedimento, o modelo atingiu AUC de 0,93, um desempenho sólido. AUC — Area Under the Curve, ou área sob a curva ROC — é uma medida de capacidade discriminatória: valores próximos de 1,0 indicam que o modelo distingue bem as categorias. Para identificar revisões de reparação de lábio leporino, o AUC chegou a 1,0 — perfeito no conjunto de teste. Mas para distinguir entre cirurgias primárias e de revisão de enxerto ósseo alveolar, o modelo fracassou completamente: AUC de 0,49, praticamente aleatório.

Por que a diferença? O número de casos disponíveis. Com poucos exemplos de determinada combinação de procedimento e tipo, o modelo não aprende padrão nenhum — apenas ruído. Os pesquisadores tentaram compensar isso com notas sintéticas geradas artificialmente, mas o problema de fundo persiste: dados escassos não se resolvem com criatividade algorítmica.

O que esses três estudos dizem sobre o presente — e o que ainda falta

Vistos em conjunto, esses trabalhos descrevem um campo que avança com clareza sobre seus próprios limites, o que é um sinal de maturidade científica.

O PLN já consegue filtrar documentos relevantes em grandes bases de prontuários eletrônicos — EHR, do inglês Electronic Health Records — com desempenho útil. Consegue classificar textos cirúrgicos complexos em múltiplos níveis de detalhe, reduzindo trabalho manual. Mas ainda tropeça quando os dados são poucos, inconsistentes ou quando refletem práticas históricas problemáticas em vez de condutas ideais.

No contexto brasileiro, esses desafios ganham dimensão própria. A digitalização dos prontuários avança de forma desigual entre hospitais públicos e privados, entre capitais e interior. A ANVISA (Agência Nacional de Vigilância Sanitária) publicou a RDC 509/2021, que estabelece requisitos para sistemas de inteligência artificial em saúde, mas a regulamentação ainda está sendo absorvida pelo setor. O CFM (Conselho Federal de Medicina) e o COFEN (Conselho Federal de Enfermagem) acompanham o debate sobre automação de decisões clínicas com atenção crescente — e legítima.

Além disso, um algoritmo treinado com dados de hospitais alemães ou norte-americanos não é automaticamente válido para pacientes brasileiros, com padrões epidemiológicos, perfis de resistência bacteriana e características populacionais diferentes. Validação local não é burocracia — é parte do método.

O que esses três estudos oferecem, portanto, não é uma solução pronta. Oferecem um mapa honesto do terreno: onde o PLN já é útil, onde ainda falha, e o que seria necessário para avançar. Para engenheiros clínicos, equipes de TI hospitalar e gestores de saúde, esse mapa é mais valioso do que qualquer promessa de perfeição.


Baseado em “Development Process of a Clinical Decision Support System for Empiric Antibiotic Therapies in Patients With Sepsis: Case Study” publicado por JMIR Medical Informatics em 13/05/2026. Link: https://medinform.jmir.org/2026/1/e79929

Baseado em “Scalable Identification of Clinically Relevant Chronic Obstructive Pulmonary Disease Documents in Large-Scale Electronic Health Record Datasets With a Lightweight Natural Language Processing Model: Retrospective Cohort Study” publicado por JMIR Medical Informatics em 12/05/2026. Link: https://medinform.jmir.org/2026/1/e84326

Baseado em “Natural Language Processing for Automated Classification of Cleft and Craniofacial Procedures From Operative Notes: Model Development and Feasibility Study” publicado por JMIR Medical Informatics em 11/05/2026. Link: https://medinform.jmir.org/2026/1/e87133

Conteúdo informativo. Não substitui avaliação médica ou aconselhamento profissional de saúde.

Imagem conceitual gerada por IA (GPT Image 1)

A. Lima

A. Lima é bacharel em Física com ênfase em Física Médica, especialista em Saúde Coletiva e mestre em Ciências da Saúde. Com mais de 30 anos de atuação em Vigilância em Saúde e 25 anos de docência em Física, escreve sobre tecnologia em saúde, física médica e ciência aplicada com rigor técnico e linguagem acessível.