Останні новини та статті

ChatGPT Не розпізнає Небезпечні Медичні Надзвичайні Ситуації у Тестах

по

06.03.2026

Нове дослідження показує, що ChatGPT, включаючи його спеціалізований інструмент ChatGPT Health, часто не помічає критичні медичні надзвичайні ситуації, викликаючи серйозні питання про його надійність як медичний консультант. ІІ-система має труднощі з точною оцінкою того, коли потрібна негайна медична допомога, іноді не надаючи попереджень навіть у ситуаціях з високим ризиком.

Зростання ІІ в Охороні здоров’я

ChatGPT і подібні великі мовні моделі (LLM) стають все більш популярними для запитів, пов’язаних зі здоров’ям, OpenAI повідомляє про десятки мільйонів користувачів, які вже використовують функцію «ChatGPT Health». Це швидке впровадження відбувається, незважаючи на обмежене ретельне тестування безпеки та ефективності системи у реальних надзвичайних ситуаціях.

Результати Дослідження: Тривожна Тенденція

Дослідники з Icahn School of Medicine в Mount Sinai провели прискорене дослідження, опубліковане в Nature Medicine, щоб заповнити цю критичну прогалину у знаннях. Вони створили 60 медичних сценаріїв, що охоплюють 21 спеціалізацію, що відрізняються за ступенем тяжкості і включають демографічні фактори, такі як раса та стать. Результати були бентежними:

Інвертовані Попередження: Попередження ІІ були «інвертовані», тобто люди з вищим ризиком самоушкодження або серйозних медичних наслідків рідше отримували рекомендацію про невідкладну допомогу.
Пропущені Надзвичайні Ситуації: Більш ніж у половині випадків, коли лікарі визначали необхідність невідкладної допомоги, ChatGPT не зміг правильно відзначити ситуацію.
Підручники проти Реальних Сценаріїв: Система працювала задовільно в ясних надзвичайних ситуаціях, але зазнавала труднощів у тонких ситуаціях, коли небезпека не була очевидна відразу.

Чому це важливо

Ненадійність медичних рекомендацій, що ґрунтуються на ІІ, має серйозні наслідки. Як зазначає Ісаак С. Кохан із Harvard Medical School, «Коли мільйони людей використовують ІІ-систему для визначення того, чи потрібна їм невідкладна допомога, ставки надзвичайно високі». Ставки особливо високі, тому що люди довіряють ІІ, але ІІ не несе відповідальності.

Це дослідження підкреслює критичний недолік поточного впровадження інструментів ІІ в охороні здоров’я. Відсутність незалежної оцінки перед широким впровадженням пов’язана з ризиком неправильної діагностики, затримкою лікування та потенційно небезпечними для життя наслідками.

Висновок

Нездатність ChatGPT надійно виявляти медичні надзвичайні ситуації наголошує на гострій необхідності суворих випробувань та контролю, перш ніж довіряти критичні рішення про здоров’я ІІ. Поки ці системи не зможуть продемонструвати постійну точність при сортуванні пацієнтів, користувачі повинні залишатися обережними та віддавати пріоритет перевіреним медичним знанням, а не автоматизованим порадам.