Une nouvelle recherche révèle une vulnérabilité surprenante dans les chatbots IA avancés : une poésie soigneusement conçue peut contourner de manière fiable les mécanismes de sécurité conçus pour empêcher la génération de contenu nuisible. Les résultats, publiés par Icaro Lab (une initiative de DexAI), démontrent que même les systèmes d’IA de pointe ont du mal à identifier et à bloquer les instructions dangereuses lorsqu’elles sont intégrées dans une forme poétique.
Comment la poésie bat la sécurité de l’IA
L’étude a testé 20 poèmes – écrits en anglais et en italien – qui se terminaient par des demandes explicites de contenus nuisibles. Celles-ci comprenaient des instructions pour créer des discours de haine, générer du contenu sexuel, détailler les méthodes de suicide et d’automutilation et fournir des guides pour fabriquer des armes ou des explosifs. Le problème principal est de savoir comment fonctionnent ces systèmes d’IA : de grands modèles linguistiques prédisent le mot suivant le plus probable dans une séquence. Dans des conditions typiques, cela leur permet de filtrer les contenus nuisibles.
Cependant, la poésie introduit délibérément une imprévisibilité : un rythme, une structure et une métaphore non conventionnels perturbent la capacité de l’IA à identifier et bloquer de manière fiable les invites dangereuses. Cela rend plus difficile pour les modèles de reconnaître les intentions malveillantes.
Les tests révèlent diverses vulnérabilités
Les chercheurs ont évalué 25 systèmes d’IA de neuf grandes entreprises : Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI et Moonshot AI. Les résultats ont montré que 62 % des invites poétiques déclenchaient des réponses dangereuses, contournant efficacement les protocoles de sécurité intégrés de l’IA.
- Le GPT-5 nano d’OpenAI s’est révélé le plus résistant, refusant de générer du contenu préjudiciable en réponse à l’un des poèmes.
- Gemini 2.5 Pro de Google a répondu à toutes les invites avec des sorties dangereuses.
- Deux modèles Meta ont répondu à 70% des demandes.
La menace s’étend au-delà des experts technologiques
Les « jailbreaks » traditionnels de l’IA – techniques permettant de manipuler de grands modèles de langage – sont complexes et généralement réservés aux chercheurs, aux pirates informatiques ou aux acteurs parrainés par l’État. Mais la poésie contradictoire est accessible à toute personne possédant des compétences rédactionnelles de base, ce qui soulève de sérieuses inquiétudes quant à la sécurité des systèmes d’IA dans les applications quotidiennes. L’équipe de recherche italienne a partagé de manière proactive l’ensemble des données avec les entreprises impliquées, mais jusqu’à présent, seul Anthropic a reconnu la vulnérabilité et a commencé à examiner l’étude.
Cette recherche souligne une faille critique dans les mesures actuelles de sécurité de l’IA : s’appuyer trop sur des prédictions statistiques sans tenir compte des manipulations créatives délibérées. La facilité avec laquelle la poésie contourne ces protocoles suggère que les systèmes d’IA pourraient être beaucoup moins sécurisés qu’on ne le pensait auparavant.























