Nieuw onderzoek onthult een verrassende kwetsbaarheid in geavanceerde AI-chatbots: zorgvuldig vervaardigde poëzie kan op betrouwbare wijze veiligheidsmechanismen omzeilen die zijn ontworpen om het genereren van schadelijke inhoud te voorkomen. De bevindingen, gepubliceerd door Icaro Lab (een initiatief van DexAI), tonen aan dat zelfs geavanceerde AI-systemen moeite hebben om gevaarlijke instructies te identificeren en te blokkeren wanneer ze ingebed zijn in een poëtische vorm.
Hoe poëzie de veiligheid van AI verslaat
Het onderzoek testte twintig gedichten – geschreven in zowel het Engels als het Italiaans – die eindigden met expliciete verzoeken om schadelijke resultaten. Deze omvatten instructies voor het creëren van haatzaaiende uitlatingen, het genereren van seksuele inhoud, het beschrijven van methoden voor zelfmoord en zelfbeschadiging, en het verstrekken van handleidingen voor het bouwen van wapens of explosieven. Het kernprobleem is hoe deze AI-systemen werken : grote taalmodellen voorspellen het meest waarschijnlijke volgende woord in een reeks. Onder normale omstandigheden kunnen ze hierdoor schadelijke inhoud eruit filteren.
Poëzie introduceert echter opzettelijke onvoorspelbaarheid: onconventioneel ritme, structuur en metafoor verstoren het vermogen van de AI om op betrouwbare wijze onveilige aanwijzingen te identificeren en te blokkeren. Dit maakt het voor de modellen moeilijker om kwade bedoelingen te herkennen.
Tests brengen uiteenlopende kwetsbaarheden aan het licht
Onderzoekers evalueerden 25 AI-systemen van negen toonaangevende bedrijven: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI en Moonshot AI. Uit de resultaten bleek dat 62% van de poëtische aanwijzingen onveilige reacties uitlokte, waardoor de ingebouwde veiligheidsprotocollen van de AI effectief werden omzeild.
- OpenAI’s GPT-5 nano bleek het meest resistent en weigerde schadelijke inhoud te genereren als reactie op een van de gedichten.
- Google’s Gemini 2.5 Pro reageerde op alle aanwijzingen met onveilige uitvoer.
- Twee Meta-modellen voldeden aan 70% van de verzoeken.
De dreiging reikt verder dan technische experts
Traditionele AI-‘jailbreaks’ – technieken om grote taalmodellen te manipuleren – zijn complex en doorgaans beperkt tot onderzoekers, hackers of door de staat gesponsorde actoren. Maar vijandige poëzie is toegankelijk voor iedereen met basisschrijfvaardigheid, wat aanleiding geeft tot ernstige zorgen over de veiligheid van AI-systemen in alledaagse toepassingen. Het Italiaanse onderzoeksteam deelde proactief de volledige dataset met de betrokken bedrijven, maar tot nu toe heeft alleen Anthropic de kwetsbaarheid erkend en is begonnen met het beoordelen van het onderzoek.
Dit onderzoek onderstreept een kritieke fout in de huidige AI-veiligheidsmaatregelen: het overdreven vertrouwen op statistische voorspellingen zonder rekening te houden met opzettelijke creatieve manipulatie. Het gemak waarmee poëzie deze protocollen omzeilt, suggereert dat AI-systemen mogelijk veel minder veilig zijn dan eerder werd aangenomen.
