Nowe badanie ujawniło nieoczekiwaną lukę w zaawansowanych chatbotach AI: starannie opracowane wiersze mogą niezawodnie ominąć mechanizmy bezpieczeństwa zaprojektowane w celu zapobiegania generowaniu złośliwych treści. Wyniki opublikowane przez Icaro Lab (inicjatywa DexAI) pokazują, że nawet najbardziej zaawansowane systemy sztucznej inteligencji mają trudności z identyfikowaniem i blokowaniem niebezpiecznych instrukcji, gdy są one osadzone w formie poetyckiej.

Jak poezja oszukuje obronę AI

W badaniu przetestowano 20 wierszy – napisanych zarówno w języku angielskim, jak i włoskim – które zakończyły się wyraźnymi żądaniami dotyczącymi złośliwych treści. Prośby te obejmowały instrukcje dotyczące tworzenia mowy nienawiści, generowania treści o charakterze seksualnym, opisywania metod samobójstwa i samookaleczenia oraz zapewniania tutoriali na temat wytwarzania broni i materiałów wybuchowych. Głównym problemem jest sposób działania systemów sztucznej inteligencji : duże modele językowe przewidują najbardziej prawdopodobne następne słowo w sekwencji. W normalnych okolicznościach pozwala im to odfiltrować złośliwą zawartość.

Jednak poezja wprowadza celową nieprzewidywalność: niekonwencjonalny rytm, struktura i metafory zakłócają zdolność sztucznej inteligencji do niezawodnego identyfikowania i blokowania niebezpiecznych żądań. Utrudnia to modelom rozpoznanie złośliwych zamiarów.

Testy ujawniły różne luki w zabezpieczeniach

Naukowcy ocenili 25 systemów AI dziewięciu wiodących firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI. Wyniki pokazały, że 62% zapytań o poezję generowało niebezpieczne odpowiedzi, skutecznie omijając wbudowane protokoły bezpieczeństwa sztucznej inteligencji.

  • Nano GPT-5 OpenAI okazało się najsolidniejsze, odmawiając generowania złośliwych treści w odpowiedzi na którykolwiek z wierszy.
  • Google Gemini 2.5 Pro odpowiedział na wszystkie żądania zawierające niebezpieczną treść.
  • Dwa modele Meta spełniły 70% żądań.

Zagrożenie wykracza poza ekspertów technicznych

Tradycyjne „hacki” AI — techniki manipulowania dużymi modelami językowymi — są złożone i zazwyczaj dostępne tylko dla badaczy, hakerów i podmiotów rządowych. Jednak złośliwa poezja jest dostępna dla każdego, kto ma podstawowe umiejętności pisania, co budzi poważne obawy dotyczące bezpieczeństwa systemów sztucznej inteligencji w codziennych zastosowaniach. Włoski zespół badawczy aktywnie udostępnił pełny zestaw danych uczestniczącym firmom, ale jak dotąd tylko firma Anthropic potwierdziła istnienie luki i rozpoczęła badanie.

To badanie uwydatnia krytyczną wadę obecnych środków bezpieczeństwa sztucznej inteligencji: nadmierne poleganie na przewidywaniach statystycznych bez uwzględnienia celowej twórczej manipulacji. Łatwość, z jaką poezja omija te protokoły, sugeruje, że systemy sztucznej inteligencji mogą być znacznie mniej bezpieczne, niż wcześniej sądzono.