Eine neue Studie zeigt, dass ChatGPT, einschließlich seines speziellen Tools „ChatGPT Health“, kritische medizinische Notfälle häufig übersieht, was ernsthafte Zweifel an seiner Zuverlässigkeit als Gesundheitsberater aufwirft. Das KI-System hat Schwierigkeiten, genau einzuschätzen, wann sofortige medizinische Hilfe erforderlich ist, und löst manchmal selbst in Hochrisikoszenarien keine Warnungen aus.

Der Aufstieg der KI im Gesundheitswesen

ChatGPT und ähnliche große Sprachmodelle (LLMs) erfreuen sich bei gesundheitsbezogenen Anfragen immer größerer Beliebtheit, wobei OpenAI berichtet, dass bereits zig Millionen Benutzer die Funktion „ChatGPT Health“ nutzen. Diese schnelle Einführung erfolgt trotz begrenzter strenger Tests der Sicherheit und Wirksamkeit des Systems in realen Notfallsituationen.

Studienergebnisse: Ein besorgniserregendes Muster

Forscher der Icahn School of Medicine am Mount Sinai führten eine Schnellstudie durch, die in Nature Medicine veröffentlicht wurde, um diese kritische Wissenslücke zu schließen. Sie erstellten 60 medizinische Szenarien aus 21 Fachgebieten mit unterschiedlichem Schweregrad und unter Berücksichtigung demografischer Faktoren wie Rasse und Geschlecht. Die Ergebnisse waren alarmierend:

  • Invertierte Warnungen: Die Notfallwarnungen der KI waren „invertiert“, was bedeutet, dass Personen mit einem höheren Risiko für Selbstverletzung oder schwerwiegende medizinische Folgen weniger wahrscheinlich eine dringende Behandlungsempfehlung erhielten.
  • Verpasste Notfälle: In mehr als der Hälfte der Fälle, in denen Ärzte feststellten, dass eine Notfallversorgung erforderlich war, versäumte ChatGPT, die Situation angemessen zu kennzeichnen.
  • Lehrbuch vs. Szenarien aus der realen Welt: Das System funktionierte in eindeutigen Notfällen ausreichend, hatte jedoch Probleme mit nuancierten Situationen, in denen die Gefahr nicht sofort offensichtlich war.

Warum das wichtig ist

Die Unzuverlässigkeit der KI-gesteuerten medizinischen Beratung hat tiefgreifende Auswirkungen. Wie Isaac S. Kohane von der Harvard Medical School betont: „Wenn Millionen von Menschen ein KI-System verwenden, um zu entscheiden, ob sie eine Notfallversorgung benötigen, steht außerordentlich viel auf dem Spiel.“ Der Einsatz ist am höchsten, weil die Menschen der KI vertrauen, KI jedoch keine Verantwortung trägt.

Diese Studie zeigt einen kritischen Fehler bei der aktuellen Einführung von KI-Tools für das Gesundheitswesen auf. Das Fehlen einer unabhängigen Bewertung vor einem flächendeckenden Einsatz birgt das Risiko einer Fehldiagnose, einer verzögerten Behandlung und potenziell lebensbedrohlicher Folgen.

Fazit

Das Versäumnis von ChatGPT, medizinische Notfälle zuverlässig zu erkennen, unterstreicht die dringende Notwendigkeit strenger Tests und Überwachung, bevor kritische Gesundheitsentscheidungen der KI anvertraut werden. Bis diese Systeme eine konsistente Genauigkeit bei der Triage nachweisen können, müssen Benutzer vorsichtig bleiben und verifiziertem medizinischem Fachwissen Vorrang vor automatisierter Beratung geben.