Una nueva investigación revela una vulnerabilidad sorprendente en los chatbots avanzados de IA: la poesía cuidadosamente elaborada puede eludir de manera confiable los mecanismos de seguridad diseñados para prevenir la generación de contenido dañino. Los hallazgos, publicados por Icaro Lab (una iniciativa de DexAI), demuestran que incluso los sistemas de inteligencia artificial más avanzados tienen dificultades para identificar y bloquear instrucciones peligrosas cuando están integradas en una forma poética.

Cómo la poesía derrota la seguridad de la IA

El estudio probó 20 poemas, escritos tanto en inglés como en italiano, que concluían con solicitudes explícitas de resultados dañinos. Estos incluían instrucciones para crear discursos de odio, generar contenido sexual, detallar métodos de suicidio y autolesión y proporcionar guías para construir armas o explosivos. La cuestión central es cómo funcionan estos sistemas de IA : los modelos de lenguaje grandes predicen la siguiente palabra más probable en una secuencia. En condiciones típicas, esto les permite filtrar contenido dañino.

Sin embargo, la poesía introduce una imprevisibilidad deliberada: el ritmo, la estructura y la metáfora no convencionales interrumpen la capacidad de la IA para identificar y bloquear de manera confiable indicaciones inseguras. Esto dificulta que los modelos reconozcan intenciones maliciosas.

Las pruebas revelan diversas vulnerabilidades

Los investigadores evaluaron 25 sistemas de inteligencia artificial de nueve empresas líderes: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI. Los resultados mostraron que el 62% de las indicaciones poéticas desencadenaron respuestas inseguras, evitando efectivamente los protocolos de seguridad integrados de la IA.

  • El GPT-5 nano de OpenAI demostró ser el más resistente, negándose a generar contenido dañino en respuesta a cualquiera de los poemas.
  • Gemini 2.5 Pro de Google respondió a todas las indicaciones con resultados inseguros.
  • Dos modelos Meta cumplieron con el 70% de las solicitudes.

La amenaza se expande más allá de los expertos en tecnología

Los “jailbreaks” tradicionales de IA (técnicas para manipular grandes modelos de lenguaje) son complejos y generalmente restringidos a investigadores, piratas informáticos o actores patrocinados por el estado. Pero la poesía contenciosa es accesible a cualquier persona con habilidades básicas de escritura, lo que genera serias preocupaciones sobre la seguridad de los sistemas de inteligencia artificial en las aplicaciones cotidianas. El equipo de investigación italiano compartió de manera proactiva el conjunto de datos completo con las empresas involucradas, pero hasta ahora solo Anthropic ha reconocido la vulnerabilidad y ha comenzado a revisar el estudio.

Esta investigación subraya un defecto crítico en las medidas de seguridad actuales de la IA: confiar demasiado en la predicción estadística sin tener en cuenta la manipulación creativa deliberada. La facilidad con la que la poesía elude estos protocolos sugiere que los sistemas de IA pueden ser mucho menos seguros de lo que se suponía anteriormente.