Додому Без рубрики AI Chatbots contornados pela poesia: protocolos de segurança sob ameaça

AI Chatbots contornados pela poesia: protocolos de segurança sob ameaça

AI Chatbots contornados pela poesia: protocolos de segurança sob ameaça

Uma nova pesquisa revela uma vulnerabilidade surpreendente em chatbots avançados de IA: poesia cuidadosamente elaborada pode contornar de forma confiável mecanismos de segurança projetados para evitar a geração de conteúdo prejudicial. As descobertas, publicadas pelo Icaro Lab (uma iniciativa da DexAI), demonstram que mesmo os sistemas de IA de ponta têm dificuldade em identificar e bloquear instruções perigosas quando estão incorporadas numa forma poética.

Como a poesia derrota a segurança da IA

O estudo testou 20 poemas – escritos em inglês e italiano – que terminavam com pedidos explícitos de resultados prejudiciais. Estas incluíam instruções para criar discurso de ódio, gerar conteúdo sexual, detalhar métodos de suicídio e automutilação e fornecer guias para a construção de armas ou explosivos. A questão central é como esses sistemas de IA funcionam : grandes modelos de linguagem prevêem a próxima palavra mais provável em uma sequência. Em condições normais, isso permite filtrar conteúdo prejudicial.

No entanto, a poesia introduz uma imprevisibilidade deliberada: ritmo, estrutura e metáforas não convencionais perturbam a capacidade da IA ​​de identificar e bloquear de forma confiável avisos inseguros. Isso torna mais difícil para os modelos reconhecerem intenções maliciosas.

Testes revelam vulnerabilidades variadas

Os pesquisadores avaliaram 25 sistemas de IA de nove empresas líderes: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI. Os resultados mostraram que 62% dos prompts poéticos desencadearam respostas inseguras, contornando efetivamente os protocolos de segurança integrados à IA.

  • O GPT-5 nano da OpenAI provou ser o mais resistente, recusando-se a gerar conteúdo prejudicial em resposta a qualquer um dos poemas.
  • O Gemini 2.5 Pro do Google respondeu a todas as solicitações com resultados inseguros.
  • Dois modelos Meta atenderam 70% das solicitações.

A ameaça vai além dos especialistas em tecnologia

Os “jailbreaks” tradicionais de IA – técnicas para manipular grandes modelos de linguagem – são complexos e geralmente restritos a pesquisadores, hackers ou atores patrocinados pelo Estado. Mas poesia adversária é acessível a qualquer pessoa com habilidades básicas de escrita, levantando sérias preocupações sobre a segurança dos sistemas de IA em aplicações cotidianas. A equipa de investigação italiana partilhou proativamente o conjunto completo de dados com as empresas envolvidas, mas até agora apenas a Anthropic reconheceu a vulnerabilidade e começou a rever o estudo.

Esta investigação sublinha uma falha crítica nas actuais medidas de segurança da IA: confiar excessivamente na previsão estatística sem ter em conta a manipulação criativa deliberada. A facilidade com que a poesia contorna estes protocolos sugere que os sistemas de IA podem ser muito menos seguros do que se supunha anteriormente.

Exit mobile version