Radiodiagnóstico

E se a IA aprendesse não só a ler a mamografia, mas a ler como você lê?

Dois radiologistas experientes olham para a mesma mamografia. Um classifica a densidade mamária como categoria B — seios com algum tecido fibroglandular disperso. O outro marca categoria C — densidade heterogênea, que pode esconder pequenos tumores. Nenhum dos dois está necessariamente errado. Eles simplesmente enxergam de formas ligeiramente diferentes, moldados por anos de treinamento, pela escola onde se formaram, pelos casos que acumularam. Essa diferença tem um nome técnico: variabilidade entre leitores. E ela é, há décadas, um dos maiores problemas não resolvidos da mamografia. Um estudo publicado em maio de 2026 no Physics in Medicine & Biology propõe uma abordagem que não tenta eliminar essa variabilidade — e sim ensiná-la a uma rede neural.

O problema que os algoritmos de IA costumam ignorar

Quando pesquisadores treinam um modelo de inteligência artificial para classificar mamografias, precisam de exemplos rotulados: imagens com respostas corretas anotadas por especialistas. O problema é que essas respostas raramente são unânimes. Dois, três, cinco radiologistas analisam a mesma imagem e chegam a conclusões diferentes. O que os desenvolvedores costumam fazer, então, é calcular uma média ou uma maioria — e usar esse valor consensual como a “resposta certa”. Em seguida, treinam o modelo para acertar essa resposta, apagando toda a informação sobre quem discordou e por quê.

É como treinar um dicionário a partir de textos escritos por pessoas com sotaques, vocabulários e estilos completamente distintos, mas forçando tudo numa única voz homogênea. O resultado é um modelo que não representa ninguém direito — nem o radiologista mais criterioso nem o mais liberal. Na prática, isso reduz tanto a acurácia individual quanto a capacidade do modelo de se adaptar a contextos diferentes.

Além da densidade mamária — uma escala de quatro categorias que descreve quanto do tecido da mama é fibroglandular — o estudo trata também do chamado realce do parênquima de fundo, ou BPE, que aparece em mamografias com contraste e indica o quanto o tecido mamário normal capta o meio de contraste. Ambas as classificações são subjetivas por natureza, e ambas têm implicações clínicas diretas: influenciam desde a indicação de exames adicionais até decisões sobre risco de câncer.

Ensinar a IA a reconhecer o estilo de cada leitor

O que os pesquisadores propõem com o ReaderAdaptNet é diferente. Em vez de colapsar as opiniões divergentes numa única resposta “verdadeira”, o modelo aprende a representar cada radiologista como um ponto num espaço matemático de baixa dimensão — um vetor de 32 números, chamado de embedding específico do leitor. Pense nisso como uma espécie de impressão digital do estilo de classificação: um conjunto compacto de características que captura como aquele profissional específico tende a interpretar imagens ambíguas.

A analogia com impressão digital ajuda, mas quebra num ponto importante: ao contrário de uma digital, esse vetor não é fixo. Ele pode ser calibrado. Se um novo radiologista entra no sistema — ou se um hospital decide adotar um padrão consensual diferente — basta fornecer um pequeno conjunto de exemplos rotulados por essa nova fonte, e o modelo ajusta o embedding sem precisar ser retreinado do zero. É como reajustar a escala de um termômetro sem precisar construir um termômetro novo.

O treinamento acontece em dois estágios. No primeiro, a rede aprende simultaneamente a extrair características discriminativas das imagens e a representar cada anotador como um ponto único nesse espaço de 32 dimensões. No segundo, o modelo usa exemplos de calibração para afinar esses pontos, permitindo personalização rápida. Os experimentos foram realizados com mamografias digitais de campo completo para densidade e com mamografias contrastadas para o BPE — duas tarefas com graus diferentes de subjetividade e complexidade visual.

O que os números mostram — e o que eles não dizem

Os resultados são concretos. Para classificação de densidade mamária, a acurácia média entre leitores subiu de 76,4% para 84,4% com a introdução dos embeddings específicos. Para o BPE, a melhora foi de 65,1% para 72,1%. Ou seja, ao invés de tentar forçar o modelo a acertar uma resposta consensual abstrata, deixá-lo aprender o estilo de cada leitor e fazer predições personalizadas melhora o desempenho real, tanto individualmente quanto no nível de consenso institucional.

Vale notar o que esses números não garantem. O estudo não avalia se o modelo melhorou o desfecho clínico dos pacientes — se mais cânceres foram detectados, se houve redução de falsos positivos, se as classificações levaram a melhores decisões terapêuticas. Isso é uma limitação importante: acurácia na tarefa de classificação e impacto clínico são coisas diferentes. Além disso, o estudo foi conduzido em conjuntos de dados específicos, e resta saber como o método se comporta em populações com características mamárias diferentes, em diferentes equipamentos, ou quando o número de leitores disponíveis para treinamento é muito pequeno.

Por outro lado, a proposta tem uma elegância conceitual que merece atenção. Ao separar as características estáveis da imagem das tendências decisórias do leitor, o modelo se torna ao mesmo tempo mais flexível e mais interpretável. É possível, em princípio, perguntar ao sistema: “o que diferencia o estilo de classificação do radiologista A do radiologista B?” — e obter uma resposta estruturada, não apenas uma caixa-preta.

Por que isso importa além da mamografia

A variabilidade entre leitores não é exclusividade da mamografia. Ela aparece em praticamente qualquer tarefa de classificação radiológica que envolva julgamento subjetivo: estadiamento de lesões hepáticas, avaliação de nódulos pulmonares, graduação de estenoses coronárias. Em todas essas áreas, a tendência atual da IA é tratar a subjetividade como ruído a ser eliminado. O que o ReaderAdaptNet sugere é o oposto: tratar a subjetividade como informação a ser modelada.

Isso tem implicações práticas para hospitais e redes de saúde. Um sistema que consegue se calibrar para o padrão de cada serviço — ou para o padrão consensual de uma sociedade médica — sem precisar de retreinamento completo é muito mais viável operacionalmente do que um modelo monolítico que exige enormes conjuntos de dados rotulados de cada nova instituição. No contexto brasileiro, onde diferentes serviços seguem diferentes protocolos e o acesso a grandes conjuntos de dados anotados ainda é desigual, essa capacidade de adaptação eficiente pode ser especialmente relevante.

Afinal, o objetivo de um bom sistema de apoio diagnóstico não é substituir o julgamento do radiologista. É, no mínimo, entendê-lo bem o suficiente para trabalhar junto — e, no melhor caso, ajudar a torná-lo mais consistente sem apagar o que cada profissional tem de particular.


Baseado em ‘ReaderAdaptNet: modeling reader variability in breast imaging with reader-specific embeddings’ publicado por Physics in Medicine & Biology (IOP Publishing) em 14 de maio de 2026. Link: https://iopscience.iop.org/article/10.1088/1361-6560/ae6227

Conteúdo informativo. Não substitui avaliação clínica especializada.

Imagem conceitual gerada por IA (GPT Image 1)

A. Lima

A. Lima é bacharel em Física com ênfase em Física Médica, especialista em Saúde Coletiva e mestre em Ciências da Saúde. Com mais de 30 anos de atuação em Vigilância em Saúde e 25 anos de docência em Física, escreve sobre tecnologia em saúde, física médica e ciência aplicada com rigor técnico e linguagem acessível.