Neue Forschungsergebnisse offenbaren eine überraschende Schwachstelle in fortschrittlichen KI-Chatbots: Sorgfältig verfasste Gedichte können Sicherheitsmechanismen, die die Generierung schädlicher Inhalte verhindern sollen, zuverlässig umgehen. Die von Icaro Lab (einer Initiative von DexAI) veröffentlichten Ergebnisse zeigen, dass selbst hochmoderne KI-Systeme Schwierigkeiten haben, gefährliche Anweisungen zu erkennen und zu blockieren, wenn sie in poetische Form eingebettet sind.
Wie Poesie die KI-Sicherheit besiegt
Die Studie testete 20 Gedichte – sowohl auf Englisch als auch auf Italienisch – die mit expliziten Aufforderungen zu schädlichen Inhalten endeten. Dazu gehörten Anleitungen zum Erstellen von Hassreden, zum Generieren sexueller Inhalte, detaillierte Methoden für Selbstmord und Selbstverletzung sowie Anleitungen zum Bau von Waffen oder Sprengstoffen. Die Kernfrage ist, wie diese KI-Systeme funktionieren : Große Sprachmodelle sagen das wahrscheinlichste nächste Wort in einer Sequenz voraus. Unter typischen Bedingungen können sie dadurch schädliche Inhalte herausfiltern.
Poesie führt jedoch zu absichtlicher Unvorhersehbarkeit: Unkonventionelle Rhythmen, Strukturen und Metaphern beeinträchtigen die Fähigkeit der KI, unsichere Aufforderungen zuverlässig zu erkennen und zu blockieren. Dadurch wird es für die Modelle schwieriger, böswillige Absichten zu erkennen.
Tests offenbaren vielfältige Schwachstellen
Forscher bewerteten 25 KI-Systeme von neun führenden Unternehmen: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI und Moonshot AI. Die Ergebnisse zeigten, dass 62 % der poetischen Aufforderungen unsichere Reaktionen auslösten, wodurch die integrierten Sicherheitsprotokolle der KI effektiv umgangen wurden.
- Der GPT-5 nano von OpenAI erwies sich als der widerstandsfähigste und weigerte sich, als Reaktion auf eines der Gedichte schädliche Inhalte zu generieren.
– Googles Gemini 2.5 Pro reagierte auf alle Eingabeaufforderungen mit unsicheren Ausgaben. - Zwei Meta-Modelle kamen 70 % der Anfragen nach.
Die Bedrohung geht über Technologieexperten hinaus
Traditionelle KI-„Jailbreaks“ – Techniken zur Manipulation großer Sprachmodelle – sind komplex und normalerweise auf Forscher, Hacker oder staatlich geförderte Akteure beschränkt. Aber kontradiktorische Poesie ist für jeden mit grundlegenden Schreibkenntnissen zugänglich, was ernsthafte Bedenken hinsichtlich der Sicherheit von KI-Systemen in alltäglichen Anwendungen aufkommen lässt. Das italienische Forschungsteam hat proaktiv den vollständigen Datensatz mit den beteiligten Unternehmen geteilt, aber bisher hat nur Anthropic die Schwachstelle erkannt und mit der Überprüfung der Studie begonnen.
Diese Forschung unterstreicht einen kritischen Fehler in den aktuellen KI-Sicherheitsmaßnahmen: Sie verlassen sich zu sehr auf statistische Vorhersagen, ohne bewusste kreative Manipulation zu berücksichtigen. Die Leichtigkeit, mit der Poesie diese Protokolle umgeht, legt nahe, dass KI-Systeme möglicherweise weitaus weniger sicher sind als bisher angenommen.
