Um novo estudo publicado na Psychiatry Research sugere que, embora grandes modelos de linguagem sejam capazes de identificar diagnósticos psiquiátricos a partir de descrições clínicas, eles são propensos a um excesso significativo de diagnósticos quando operam sem orientação estruturada. Ao integrar árvores de decisão derivadas de especialistas ao processo diagnóstico, pesquisadores da Universidade da Califórnia em San Francisco descobriram que é possível melhorar a precisão desses modelos de inteligência artificial e reduzir a taxa de falsos positivos incorretos.
O rápido desenvolvimento da inteligência artificial tem despertado um interesse crescente em suas potenciais aplicações na área da saúde. Grandes modelos de linguagem, como o ChatGPT da OpenAI, demonstraram capacidade de processar e gerar textos complexos, o que levantou a possibilidade de seu uso em contextos de saúde mental para tarefas como apoio à decisão clínica ou documentação.
Muitos pacientes já estão acessando essas ferramentas públicas para interpretar seus próprios sintomas e buscar aconselhamento médico. No entanto, esses modelos são treinados em vastos conjuntos de dados da internet, e não em currículos médicos específicos. Esse método de treinamento faz com que os modelos funcionem com base em probabilidades estatísticas e padrões linguísticos, em vez de um entendimento clínico genuíno.
Há preocupação de que, sem treinamento médico específico ou salvaguardas, esses modelos de uso geral possam gerar orientações imprecisas ou potencialmente prejudiciais. A capacidade de um programa de computador produzir um texto coerente não equivale, necessariamente, à capacidade de realizar o raciocínio complexo exigido para um diagnóstico psiquiátrico.
Os autores do novo estudo buscaram avaliar se grandes modelos de linguagem genéricos seriam capazes de raciocinar de forma eficaz sobre casos de saúde mental. Eles também quiseram determinar se fornecer aos modelos regras específicas, criadas por especialistas, poderia aumentar sua precisão e segurança.
“Houve um interesse considerável no uso de tecnologias baseadas em grandes modelos de linguagem (LLMs) para construir ferramentas clínicas e de pesquisa em saúde comportamental. Além disso, as pessoas estão usando cada vez mais chatbots baseados em LLMs (como ChatGPT, Claude, Gemini etc.) como fontes de informação em saúde e para apoio emocional”, explicou o autor do estudo Karthik V. Sarma, fundador do Grupo de Pesquisa em IA e Saúde Mental da UCSF, no Departamento de Psiquiatria e Ciências do Comportamento da UCSF.
“Queríamos ver o quão bem esses LLMs funcionariam em nossa área e escolhemos o diagnóstico a partir de vinhetas clínicas como um problema exemplo para avaliação. Também queríamos saber se poderíamos melhorar o desempenho dos modelos ao restringi-los a usar caminhos de raciocínio (árvores de decisão) projetados por especialistas em psiquiatria.”
Para conduzir essa investigação, os pesquisadores utilizaram um conjunto de 93 vinhetas de casos clínicos retiradas do livro DSM-5-TR Clinical Cases. Essas vinhetas servem como exemplos padronizados de pacientes com condições psiquiátricas específicas, como depressão, transtorno bipolar ou esquizofrenia. A equipe dividiu esses casos em um conjunto de treinamento, usado para refinar as estratégias de formulação dos prompts, e um conjunto de teste, usado para avaliar o desempenho final dos modelos. Eles testaram três versões da família GPT: GPT-3.5, GPT-4 e GPT-4o.
Os pesquisadores elaboraram duas abordagens experimentais distintas para testar os modelos. A primeira foi a abordagem “Base”, na qual a inteligência artificial recebia apenas a história clínica e era solicitada a prever os diagnósticos mais prováveis. Esse método imita a forma como um usuário comum pode interagir com um chatbot, descrevendo sintomas e pedindo uma opinião. O segundo método foi a abordagem de “Árvore de Decisão”, que envolveu a adaptação da lógica do DSM-5-TR Handbook of Differential Diagnosis, um guia profissional que utiliza lógica ramificada para confirmar ou excluir condições.
Na abordagem de Árvore de Decisão, os pesquisadores não pediam diretamente um diagnóstico ao modelo. Em vez disso, convertiam a lógica especializada em uma série de perguntas de “sim” ou “não”. O modelo era então orientado a responder a essas perguntas com base na vinheta do caso clínico.
Por exemplo, o modelo poderia ser questionado se um paciente estava apresentando um sintoma específico por um determinado período. As respostas a essas perguntas sequenciais conduziam o sistema por um caminho em direção a um possível diagnóstico. Esse método forçava o modelo a seguir um processo de raciocínio passo a passo, semelhante ao de um clínico treinado.
Os resultados mostraram uma distinção clara entre os dois métodos. Quando os modelos eram solicitados diretamente a adivinhar o diagnóstico na abordagem Base, eles demonstravam alta sensibilidade. O modelo mais avançado, GPT-4o, identificou corretamente o diagnóstico designado pelo autor em aproximadamente 77% dos casos. Isso indica que os modelos são bastante competentes em detectar a presença de um transtorno a partir do texto.
No entanto, essa alta sensibilidade teve um custo em termos de precisão. A abordagem Base resultou em um valor preditivo positivo baixo, em torno de 40%. Essa métrica revela que os modelos estavam lançando uma rede ampla demais, frequentemente atribuindo diagnósticos que não estavam presentes nas vinhetas.
Em média, os modelos da abordagem Base produziram mais de um diagnóstico incorreto para cada diagnóstico correto. Essa tendência ao excesso de diagnóstico representa um risco significativo, pois pode levar pacientes a acreditar que possuem condições que, na realidade, não têm.
“Isso sugere para todos que os diagnósticos gerados por chatbots generalistas podem não ser precisos, e que é importante consultar um profissional de saúde”, disse Sarma ao PsyPost.
A implementação da abordagem de Árvore de Decisão produziu resultados diferentes. Ao obrigar os modelos a seguir estruturas de raciocínio baseadas em especialistas, os pesquisadores aumentaram o valor preditivo positivo para cerca de 65%. Essa melhoria significa que, quando o sistema sugeria um diagnóstico, ele tinha uma probabilidade muito maior de estar correto. A taxa de excesso de diagnóstico diminuiu em comparação com o método de solicitação direta.
Houve uma troca associada a esse aumento de precisão. A sensibilidade da abordagem de Árvore de Decisão foi ligeiramente menor do que a da abordagem Base, ficando em torno de 71%. Isso sugere que as regras rígidas das árvores de decisão ocasionalmente fizeram o modelo deixar de identificar um diagnóstico que o método mais aberto poderia ter captado. Apesar dessa pequena queda na sensibilidade, o desempenho geral, medido pela estatística F1 — uma métrica que equilibra precisão e revocação — foi, em geral, maior para a abordagem de Árvore de Decisão.
O estudo também destacou a importância de refinar os prompts usados para orientar a inteligência artificial. Durante a fase de treinamento, os pesquisadores observaram que os modelos às vezes interpretavam mal a terminologia médica ou a estrutura das árvores de decisão. Por exemplo, inicialmente os modelos tinham dificuldade em diferenciar “uso de substâncias” de efeitos colaterais médicos, ou interpretavam incorretamente termos clínicos como “egodistônico”. Os pesquisadores precisaram refinar iterativamente as perguntas para garantir que os modelos interpretassem corretamente os critérios clínicos.
Os achados fornecem evidências de que grandes modelos de linguagem generalistas possuem uma capacidade emergente de raciocínio psiquiátrico. O desempenho melhorou a cada geração sucessiva do modelo, com o GPT-4 e o GPT-4o superando o mais antigo GPT-3.5. Essa trajetória sugere que, à medida que esses modelos continuam a evoluir, sua capacidade de lidar com tarefas médicas complexas pode aumentar.
“Do ponto de vista prático, a redução do excesso de diagnóstico com o uso de nossas árvores de decisão foi significativa”, explicou Sarma. “No entanto, a tarefa que utilizamos (diagnóstico a partir de vinhetas) é muito mais simples do que o diagnóstico no mundo real. Eu esperaria que o desempenho, neste estágio, fosse muito pior em contextos reais, e ainda estamos trabalhando em métodos para enfrentar esse problema. Por enquanto, não acredito que esses modelos generalistas estejam prontos para serem usados como agentes de apoio em saúde mental, embora possa haver outros modelos especializados mais capazes.”
A tendência ao excesso de diagnóstico observada na abordagem Base é particularmente relevante para o público em geral. Pessoas que utilizam chatbots para autodiagnóstico devem estar cientes de que esses sistemas podem ser tendenciosos a identificar patologias onde elas não existem. O estudo sugere que, embora a inteligência artificial possa ser uma ferramenta poderosa para analisar dados em saúde comportamental, ela funciona melhor quando é limitada por conhecimento médico especializado e diretrizes validadas.
“Nosso objetivo não foi produzir uma ferramenta clínica pronta para uso, e esse não foi o resultado do nosso trabalho”, observou Sarma. “Em vez disso, nos concentramos em investigar o quão bem os modelos atuais funcionam e se nossa ideia de integrá-los a diretrizes especializadas era útil. Esperamos que nossos achados possam ser usados para desenvolver ferramentas melhores e mais seguras no futuro.”
Pesquisas futuras precisarão se concentrar em testar esses sistemas com dados reais de pacientes para verificar se os resultados se mantêm na prática clínica. Os autores também sugerem que trabalhos futuros poderiam explorar o uso desses modelos para identificar novos padrões diagnósticos ou fenótipos baseados em linguagem que vão além das classificações atuais. Por enquanto, a integração de raciocínio especializado parece ser um passo necessário para tornar essas ferramentas mais seguras e precisas para possíveis aplicações psiquiátricas.
“Atualmente, estamos trabalhando no desenvolvimento de sistemas que possam operar com dados do mundo real e na avaliação do impacto de diferentes métodos nesse contexto”, explicou Sarma. “Também estamos buscando compreender melhor como o uso de chatbots por pessoas com transtornos mentais diagnosticados afeta sua saúde.”
O estudo, intitulado “Integrating expert knowledge into large language models improves performance for psychiatric reasoning and diagnosis”, foi assinado por Karthik V. Sarma, Kaitlin E. Hanss, Andrew J. M. Halls, Andrew Krystal, Daniel F. Becker, Anne L. Glowinski e Atul J. Butte.



