Sebuah studi baru mengungkapkan bahwa ChatGPT, termasuk alat khusus “ChatGPT Health”, sering kali melewatkan keadaan darurat medis yang kritis, sehingga menimbulkan pertanyaan serius tentang keandalannya sebagai penasihat layanan kesehatan. Sistem AI kesulitan menilai secara akurat kapan perhatian medis segera diperlukan, dan terkadang gagal memicu peringatan bahkan dalam skenario berisiko tinggi.
Bangkitnya AI dalam Layanan Kesehatan
ChatGPT dan model bahasa besar (LLM) serupa menjadi semakin populer untuk pertanyaan terkait kesehatan, dengan OpenAI melaporkan puluhan juta pengguna telah memanfaatkan fitur “ChatGPT Kesehatan”. Penerapan yang cepat ini terjadi meskipun pengujian ketat terhadap keamanan dan efektivitas sistem dalam situasi darurat dunia nyata masih terbatas.
Temuan Studi: Pola yang Memprihatinkan
Para peneliti di Fakultas Kedokteran Icahn di Mount Sinai melakukan penelitian cepat yang dipublikasikan di Nature Medicine, untuk mengatasi kesenjangan kritis dalam pengetahuan ini. Mereka menciptakan 60 skenario medis yang mencakup 21 spesialisasi, dengan tingkat keparahan yang bervariasi dan menggabungkan faktor demografi seperti ras dan gender. Hasilnya mengkhawatirkan:
- Peringatan Terbalik: Peringatan darurat AI bersifat “terbalik”, yang berarti individu yang berisiko lebih tinggi untuk melukai diri sendiri atau mengalami kondisi medis yang parah lebih kecil kemungkinannya untuk menerima rekomendasi perawatan darurat.
- Keadaan Darurat yang Terlewatkan: Dalam lebih dari separuh kasus ketika dokter memutuskan bahwa perawatan darurat diperlukan, ChatGPT gagal menandai situasi dengan tepat.
- Buku Teks vs. Skenario Dunia Nyata: Sistem ini bekerja dengan cukup baik dalam keadaan darurat yang jelas, namun kesulitan menghadapi situasi yang berbeda-beda di mana bahaya tidak langsung terlihat.
Mengapa Ini Penting
Tidak dapat diandalkannya saran medis yang didorong oleh AI mempunyai implikasi yang besar. Seperti yang dikemukakan oleh Isaac S Kohane dari Harvard Medical School, “Ketika jutaan orang menggunakan sistem AI untuk memutuskan apakah mereka memerlukan perawatan darurat, taruhannya sangat tinggi.” Pertaruhannya paling besar karena masyarakat mempercayai AI, namun AI tidak memiliki akuntabilitas.
Studi ini menyoroti kelemahan kritis dalam peluncuran alat kesehatan AI saat ini. Kurangnya evaluasi independen sebelum penyebaran secara luas berisiko menyebabkan kesalahan diagnosis, keterlambatan pengobatan, dan konsekuensi yang berpotensi mengancam jiwa.
Kesimpulan
Kegagalan ChatGPT dalam mengidentifikasi keadaan darurat medis secara andal menggarisbawahi kebutuhan mendesak akan pengujian dan pengawasan yang ketat sebelum mempercayakan keputusan kesehatan yang penting kepada AI. Hingga sistem ini dapat menunjukkan keakuratan yang konsisten dalam triase, pengguna harus tetap berhati-hati dan memprioritaskan keahlian medis yang terverifikasi dibandingkan saran otomatis.























