Un nuovo studio rivela che ChatGPT, compreso il suo strumento dedicato “ChatGPT Health”, spesso non rileva le emergenze mediche critiche, sollevando seri dubbi sulla sua affidabilità come consulente sanitario. Il sistema di intelligenza artificiale fatica a valutare con precisione quando è necessaria assistenza medica immediata, a volte non riuscendo a far scattare gli allarmi anche in scenari ad alto rischio.
L’ascesa dell’intelligenza artificiale nel settore sanitario
ChatGPT e simili modelli linguistici di grandi dimensioni (LLM) sono diventati sempre più popolari per le richieste relative alla salute, con OpenAI che segnala decine di milioni di utenti che già sfruttano la sua funzionalità “ChatGPT Health”. Questa rapida adozione avviene nonostante i test rigorosi e limitati sulla sicurezza e l’efficacia del sistema nelle situazioni di emergenza del mondo reale.
Risultati dello studio: un modello preoccupante
I ricercatori della Icahn School of Medicine del Monte Sinai hanno condotto uno studio accelerato, pubblicato su Nature Medicine, per colmare questa lacuna critica nella conoscenza. Hanno creato 60 scenari medici che abbracciano 21 specialità, variando in gravità e incorporando fattori demografici come razza e sesso. I risultati furono allarmanti:
- Avvisi invertiti: gli avvisi di emergenza dell’IA erano “invertiti”, il che significa che gli individui a più alto rischio di autolesionismo o di esiti medici gravi avevano meno probabilità di ricevere una raccomandazione di cure urgenti.
- Emergenze mancate: in oltre la metà dei casi in cui i medici hanno stabilito che erano necessarie cure di emergenza, ChatGPT non è riuscita a segnalare la situazione in modo appropriato.
- Scenari da manuale rispetto a scenari reali: il sistema ha funzionato adeguatamente in caso di emergenze chiare, ma ha avuto problemi con situazioni sfumate in cui il pericolo non era immediatamente evidente.
Perché è importante
L’inaffidabilità della consulenza medica basata sull’intelligenza artificiale ha profonde implicazioni. Come sottolinea Isaac S Kohane della Harvard Medical School, “Quando milioni di persone utilizzano un sistema di intelligenza artificiale per decidere se hanno bisogno di cure di emergenza, la posta in gioco è straordinariamente alta”. La posta in gioco è altissima perché le persone hanno fiducia nell’intelligenza artificiale, ma l’intelligenza artificiale non ha alcuna responsabilità.
Questo studio evidenzia un difetto critico nell’attuale lancio di strumenti sanitari basati sull’intelligenza artificiale. La mancanza di una valutazione indipendente prima di un’ampia diffusione rischia di avere diagnosi errate, trattamenti ritardati e conseguenze potenzialmente letali.
Conclusione
L’incapacità di ChatGPT di identificare in modo affidabile le emergenze mediche sottolinea l’urgente necessità di test e controlli rigorosi prima di affidare decisioni sanitarie critiche all’intelligenza artificiale. Fino a quando questi sistemi non saranno in grado di dimostrare un’accuratezza costante nel triage, gli utenti devono rimanere cauti e dare priorità alla competenza medica verificata rispetto alla consulenza automatizzata.
