Новое исследование выявило неожиданную уязвимость в продвинутых ИИ-чатботах: тщательно составленные стихотворения могут надёжно обходить механизмы безопасности, предназначенные для предотвращения генерации вредоносного контента. Результаты, опубликованные Icaro Lab (инициативой DexAI), демонстрируют, что даже самые современные ИИ-системы испытывают трудности с выявлением и блокировкой опасных инструкций, когда они встроены в поэтическую форму.
Как поэзия обманывает ИИ-защиту
В исследовании было протестировано 20 стихотворений – написанных как на английском, так и на итальянском языках – которые заканчивались явными запросами на создание вредоносного контента. Эти запросы включали инструкции по созданию разжигающей ненависть речи, генерации сексуального контента, описанию методов самоубийства и членовредительства, а также предоставлению руководств по изготовлению оружия или взрывчатых веществ. Основная проблема заключается в том, как работают эти ИИ-системы : большие языковые модели предсказывают наиболее вероятное следующее слово в последовательности. В нормальных условиях это позволяет им фильтровать вредоносный контент.
Однако поэзия вносит преднамеренную непредсказуемость: нетрадиционный ритм, структура и метафоры нарушают способность ИИ надёжно выявлять и блокировать небезопасные запросы. Это затрудняет распознавание злонамеренных намерений моделями.
Тестирование выявило различные уязвимости
Исследователи оценили 25 ИИ-систем от девяти ведущих компаний: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Результаты показали, что 62% поэтических запросов вызвали небезопасные ответы, фактически обходя встроенные протоколы безопасности ИИ.
- GPT-5 nano от OpenAI оказался наиболее устойчивым, отказываясь генерировать вредоносный контент в ответ на какое-либо из стихотворений.
- Gemini 2.5 Pro от Google ответил на все запросы небезопасным контентом.
- Две модели Meta выполнили 70% запросов.
Угроза выходит за рамки технических экспертов
Традиционные «взломы» ИИ – методы манипулирования большими языковыми моделями – сложны и обычно доступны только исследователям, хакерам или государственным акторам. Но злонамеренная поэзия доступна любому, обладающему базовыми навыками письма, что вызывает серьёзные опасения по поводу безопасности ИИ-систем в повседневных приложениях. Итальянская исследовательская группа упреждающе поделилась полным набором данных с участвующими компаниями, но пока только Anthropic признала уязвимость и приступила к изучению исследования.
Это исследование подчёркивает критический недостаток современных мер безопасности ИИ: чрезмерную зависимость от статистического прогнозирования без учёта преднамеренной творческой манипуляции. Простота, с которой поэзия обходит эти протоколы, говорит о том, что ИИ-системы могут быть гораздо менее безопасными, чем предполагалось ранее.
