Нове дослідження виявило неочікувану вразливість у розширених чат-ботах зі штучним інтелектом: ретельно створені вірші можуть надійно обійти механізми безпеки, призначені для запобігання створенню шкідливого вмісту. Результати, опубліковані Icaro Lab (ініціатива DexAI), демонструють, що навіть найдосконаліші системи штучного інтелекту мають труднощі з ідентифікацією та блокуванням небезпечних інструкцій, якщо вони вбудовані у віршованій формі.
Як поезія обдурює захист ШІ
Дослідження протестувало 20 віршів, написаних англійською та італійською мовами, які закінчувалися явними проханнями щодо шкідливого вмісту. Ці запити включали вказівки щодо того, як створювати мову ненависті, створювати контент сексуального характеру, описувати методи самогубства та самоушкодження, а також надавати посібники з виготовлення зброї чи вибухівки. Головна проблема полягає в тому, як ці системи штучного інтелекту працюють : великі мовні моделі передбачають найбільш ймовірне наступне слово в послідовності. За звичайних обставин це дозволяє їм фільтрувати шкідливий вміст.
Однак поезія вносить навмисну непередбачуваність: нетрадиційний ритм, структура та метафори порушують здатність ШІ надійно ідентифікувати та блокувати небезпечні запити. Через це моделям важко розпізнати зловмисний намір.
Тестування виявило різні вразливості
Дослідники оцінили 25 систем ШІ від дев’яти провідних компаній: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI і Moonshot AI. Результати показали, що 62% поетичних запитів генерували небезпечні відповіді, фактично обходячи вбудовані протоколи безпеки ШІ.
- GPT-5 nano від OpenAI виявився найнадійнішим, відмовляючись генерувати шкідливий вміст у відповідь на будь-який із віршів.
- Google Gemini 2.5 Pro відповіла на всі запити з небезпечним вмістом.
- Дві моделі Meta виконали 70% запитів.
Загроза виходить за межі технічних експертів
Традиційні «зломи» штучного інтелекту — методи маніпулювання великими мовними моделями — складні й зазвичай доступні лише дослідникам, хакерам або урядовим особам. Але шкідлива поезія доступна будь-кому, хто має базові навички письма, що викликає серйозні занепокоєння щодо безпеки систем штучного інтелекту в повсякденних програмах. Італійська дослідницька група заздалегідь поділилася повним набором даних з компаніями-учасниками, але поки що лише Anthropic визнала вразливість і почала вивчати дослідження.
Це дослідження висвітлює критичний недолік у поточних заходах безпеки штучного інтелекту: надмірна залежність від статистичних прогнозів без урахування навмисних творчих маніпуляцій. Легкість, з якою поезія обходить ці протоколи, свідчить про те, що системи ШІ можуть бути набагато менш безпечними, ніж вважалося раніше.























