Uit een nieuw onderzoek blijkt dat ChatGPT, inclusief de speciale tool “ChatGPT Health”, vaak kritieke medische noodgevallen mist, wat ernstige vragen oproept over de betrouwbaarheid ervan als adviseur in de gezondheidszorg. Het AI-systeem heeft moeite om nauwkeurig in te schatten wanneer onmiddellijke medische aandacht nodig is, en slaagt er soms niet in om waarschuwingen te activeren, zelfs in scenario’s met een hoog risico.
De opkomst van AI in de gezondheidszorg
ChatGPT en vergelijkbare grote taalmodellen (LLM’s) zijn steeds populairder geworden voor gezondheidsgerelateerde vragen, waarbij OpenAI meldt dat tientallen miljoenen gebruikers al gebruik maken van de “ChatGPT Health” -functie. Deze snelle adoptie vindt plaats ondanks beperkte rigoureuze tests van de veiligheid en effectiviteit van het systeem in noodsituaties in de echte wereld.
Studieresultaten: een zorgwekkend patroon
Onderzoekers van de Icahn School of Medicine op de berg Sinaï voerden een versnelde studie uit, gepubliceerd in Nature Medicine, om deze kritische leemte in kennis aan te pakken. Ze creëerden 60 medische scenario’s verspreid over 21 specialismen, variërend in ernst en met demografische factoren zoals ras en geslacht. De resultaten waren alarmerend:
- Omgekeerde waarschuwingen: De noodwaarschuwingen van de AI waren “omgekeerd”, wat betekent dat personen met een hoger risico op zelfbeschadiging of ernstige medische gevolgen minder waarschijnlijk een dringende zorgaanbeveling zouden ontvangen.
- Gemiste noodgevallen: In meer dan de helft van de gevallen waarin artsen vaststelden dat spoedeisende zorg noodzakelijk was, slaagde ChatGPT er niet in de situatie op de juiste manier te signaleren.
- Lesboek versus scenario’s uit de echte wereld: Het systeem presteerde adequaat in duidelijke noodsituaties, maar worstelde met genuanceerde situaties waarin het gevaar niet onmiddellijk duidelijk was.
Waarom dit belangrijk is
De onbetrouwbaarheid van AI-gestuurd medisch advies heeft diepgaande gevolgen. Zoals Isaac S Kohane van de Harvard Medical School opmerkt: “Als miljoenen mensen een AI-systeem gebruiken om te beslissen of ze spoedeisende zorg nodig hebben, is de inzet buitengewoon hoog.” De inzet is het hoogst omdat mensen AI vertrouwen, maar AI heeft geen verantwoordelijkheid.
Deze studie benadrukt een kritieke tekortkoming in de huidige uitrol van AI-hulpmiddelen in de gezondheidszorg. Het gebrek aan onafhankelijke evaluatie vóór grootschalige inzet riskeert een verkeerde diagnose, vertraagde behandeling en mogelijk levensbedreigende gevolgen.
Conclusie
Het onvermogen van ChatGPT om op betrouwbare wijze medische noodsituaties te identificeren onderstreept de dringende behoefte aan strenge tests en toezicht voordat cruciale gezondheidsbeslissingen aan AI worden toevertrouwd. Totdat deze systemen een consistente nauwkeurigheid bij de triage kunnen aantonen, moeten gebruikers voorzichtig blijven en voorrang geven aan geverifieerde medische expertise boven geautomatiseerd advies.























