Новое исследование показывает, что ChatGPT, включая его специализированный инструмент «ChatGPT Health», часто не замечает критические медицинские чрезвычайные ситуации, вызывая серьёзные вопросы о его надёжности в качестве медицинского консультанта. ИИ-система испытывает трудности с точной оценкой того, когда требуется немедленная медицинская помощь, иногда не выдавая предупреждений даже в ситуациях с высоким риском.
Рост ИИ в Здравоохранении
ChatGPT и подобные большие языковые модели (LLM) становятся всё более популярными для запросов, связанных со здоровьем, при этом OpenAI сообщает о десятках миллионов пользователей, уже использующих функцию «ChatGPT Health». Это быстрое внедрение происходит, несмотря на ограниченное тщательное тестирование безопасности и эффективности системы в реальных чрезвычайных ситуациях.
Результаты Исследования: Тревожная Тенденция
Исследователи из Icahn School of Medicine at Mount Sinai провели ускоренное исследование, опубликованное в Nature Medicine, чтобы восполнить этот критический пробел в знаниях. Они создали 60 медицинских сценариев, охватывающих 21 специализацию, различающихся по степени тяжести и включающих демографические факторы, такие как раса и пол. Результаты были обескураживающими:
- Инвертированные Предупреждения: Предупреждения ИИ были «инвертированы», то есть люди с более высоким риском самоповреждения или серьёзных медицинских последствий реже получали рекомендацию о неотложной помощи.
- Пропущенные Чрезвычайные Ситуации: Более чем в половине случаев, когда врачи определяли необходимость неотложной помощи, ChatGPT не смог правильно отметить ситуацию.
- Учебники против Реальных Сценариев: Система работала удовлетворительно в ясных чрезвычайных ситуациях, но испытывала трудности в тонких ситуациях, когда опасность не была очевидна сразу.
Почему Это Важно
Ненадёжность медицинских рекомендаций, основанных на ИИ, имеет серьёзные последствия. Как отмечает Исаак С. Кохан из Harvard Medical School, «Когда миллионы людей используют ИИ-систему для определения того, нужна ли им неотложная помощь, ставки чрезвычайно высоки». Ставки особенно высоки, потому что люди доверяют ИИ, но ИИ не несёт ответственности.
Это исследование подчёркивает критический недостаток в текущем внедрении инструментов ИИ в здравоохранении. Отсутствие независимой оценки перед широким внедрением сопряжено с риском неверной диагностики, задержкой лечения и потенциально опасными для жизни последствиями.
Заключение
Неспособность ChatGPT надёжно выявлять медицинские чрезвычайные ситуации подчёркивает острую необходимость строгих испытаний и контроля, прежде чем доверять критические решения о здоровье ИИ. Пока эти системы не смогут продемонстрировать постоянную точность при сортировке пациентов, пользователи должны оставаться осторожными и отдавать приоритет проверенным медицинским знаниям, а не автоматизированным советам.























