Nová studie odhalila neočekávanou zranitelnost pokročilých chatbotů s umělou inteligencí: pečlivě vytvořené básně mohou spolehlivě obejít bezpečnostní mechanismy, které mají zabránit generování škodlivého obsahu. Výsledky publikované laboratoří Icaro Lab (iniciativa DexAI) ukazují, že i ty nejpokročilejší systémy umělé inteligence mají potíže s identifikací a blokováním nebezpečných instrukcí, když jsou začleněny do poetické formy.
Jak poezie klame obranu proti umělé inteligenci
Studie testovala 20 básní – napsaných v angličtině i italštině –, které skončily výslovnými požadavky na škodlivý obsah. Tyto požadavky zahrnovaly pokyny, jak vytvářet nenávistné projevy, vytvářet sexuální obsah, popisovat metody sebevražd a sebepoškozování a poskytovat návody, jak vyrábět zbraně nebo výbušniny. Hlavním problémem je, jak tyto systémy umělé inteligence fungují : velké jazykové modely předpovídají nejpravděpodobnější další slovo v sekvenci. Za normálních okolností jim to umožňuje odfiltrovat škodlivý obsah.
Poezie však přináší záměrnou nepředvídatelnost: nekonvenční rytmus, struktura a metafory narušují schopnost AI spolehlivě identifikovat a blokovat nebezpečné požadavky. Díky tomu je pro modely obtížné rozpoznat nekalé úmysly.
Testování odhalilo různé zranitelnosti
Výzkumníci hodnotili 25 systémů umělé inteligence od devíti předních společností: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI a Moonshot AI. Výsledky ukázaly, že 62 % dotazů na poezii generovalo nebezpečné odpovědi, čímž efektivně obcházely vestavěné bezpečnostní protokoly AI.
- OpenAI GPT-5 nano se ukázal jako nejrobustnější a odmítal generovat škodlivý obsah v reakci na kteroukoli z básní.
- Gemini 2.5 Pro od Googlu odpověděl na všechny požadavky s nebezpečným obsahem.
- Dva modely Meta splnily 70 % požadavků.
Hrozba přesahuje technické odborníky
Tradiční „hacky“ umělé inteligence – techniky pro manipulaci s velkými jazykovými modely – jsou složité a obvykle přístupné pouze výzkumníkům, hackerům nebo vládním činitelům. Ale škodlivá poezie je přístupná každému, kdo má základní dovednosti psaní, což vyvolává vážné obavy o bezpečnost systémů umělé inteligence v každodenních aplikacích. Italský výzkumný tým proaktivně sdílel celý soubor dat se zúčastněnými společnostmi, ale zatím pouze Anthropic uznal zranitelnost a začal studovat výzkum.
Tento výzkum zdůrazňuje kritickou chybu v současných bezpečnostních opatřeních AI: přílišné spoléhání se na statistické předpovědi bez zohlednění záměrné kreativní manipulace. Snadnost, s jakou poezie obchází tyto protokoly, naznačuje, že systémy AI mohou být mnohem méně bezpečné, než se dříve myslelo.























