Um novo estudo revela que o ChatGPT, incluindo sua ferramenta dedicada “ChatGPT Health”, frequentemente perde emergências médicas críticas, levantando sérias questões sobre sua confiabilidade como consultor de saúde. O sistema de IA tem dificuldade em avaliar com precisão quando é necessária atenção médica imediata, por vezes não conseguindo acionar alertas mesmo em cenários de alto risco.

A ascensão da IA na saúde

ChatGPT e grandes modelos de linguagem semelhantes (LLMs) tornaram-se cada vez mais populares para consultas relacionadas à saúde, com a OpenAI relatando dezenas de milhões de usuários já aproveitando seu recurso “ChatGPT Health”. Esta rápida adoção ocorre apesar dos testes rigorosos e limitados da segurança e eficácia do sistema em situações de emergência do mundo real.

Resultados do estudo: um padrão preocupante

Pesquisadores da Escola de Medicina Icahn no Monte Sinai conduziram um estudo acelerado, publicado na Nature Medicine, para abordar esta lacuna crítica no conhecimento. Eles criaram 60 cenários médicos abrangendo 21 especialidades, variando em gravidade e incorporando fatores demográficos como raça e gênero. Os resultados foram alarmantes:

  • Alertas invertidos: Os alertas de emergência da IA foram “invertidos”, o que significa que indivíduos com maior risco de automutilação ou resultados médicos graves tinham menos probabilidade de receber uma recomendação de atendimento urgente.
  • Emergências perdidas: Em mais da metade dos casos em que os médicos determinaram que o atendimento de emergência era necessário, o ChatGPT não conseguiu sinalizar a situação de forma adequada.
  • Livro didático versus cenários do mundo real: O sistema funcionou adequadamente em emergências claras, mas enfrentou situações diferenciadas em que o perigo não era imediatamente óbvio.

Por que isso é importante

A falta de confiabilidade do aconselhamento médico baseado em IA tem implicações profundas. Como aponta Isaac S Kohane, da Harvard Medical School: “Quando milhões de pessoas usam um sistema de IA para decidir se precisam de cuidados de emergência, os riscos são extraordinariamente elevados”. Os riscos são maiores porque as pessoas confiam na IA, mas a IA não tem responsabilidade.

Este estudo destaca uma falha crítica na implementação atual de ferramentas de IA para saúde. A falta de avaliação independente antes da implantação generalizada corre o risco de erros de diagnóstico, atrasos no tratamento e consequências potencialmente fatais.

Conclusão

A falha do ChatGPT em identificar emergências médicas de forma confiável ressalta a necessidade urgente de testes e supervisão rigorosos antes de confiar decisões críticas de saúde à IA. Até que estes sistemas possam demonstrar uma precisão consistente na triagem, os utilizadores devem permanecer cautelosos e dar prioridade ao conhecimento médico verificado em vez do aconselhamento automatizado.