Додому Без рубрики Chatbot AI bypassati dalla poesia: protocolli di sicurezza sotto minaccia

Chatbot AI bypassati dalla poesia: protocolli di sicurezza sotto minaccia

Chatbot AI bypassati dalla poesia: protocolli di sicurezza sotto minaccia

Una nuova ricerca rivela una sorprendente vulnerabilità nei chatbot avanzati con intelligenza artificiale: la poesia accuratamente realizzata può aggirare in modo affidabile i meccanismi di sicurezza progettati per prevenire la generazione di contenuti dannosi. I risultati, pubblicati da Icaro Lab (un’iniziativa di DexAI), dimostrano che anche i sistemi di intelligenza artificiale all’avanguardia faticano a identificare e bloccare istruzioni pericolose quando sono incorporate in una forma poetica.

Come la poesia sconfigge la sicurezza dell’intelligenza artificiale

Lo studio ha testato 20 poesie – scritte sia in inglese che in italiano – che si concludevano con esplicite richieste di risultati dannosi. Queste includevano istruzioni per incitare all’odio, generare contenuti di natura sessuale, dettagliare metodi di suicidio e autolesionismo e fornire guide per costruire armi o esplosivi. La questione centrale è come funzionano questi sistemi di intelligenza artificiale : modelli linguistici di grandi dimensioni prevedono la parola successiva più probabile in una sequenza. In condizioni tipiche, ciò consente loro di filtrare i contenuti dannosi.

Tuttavia, la poesia introduce una deliberata imprevedibilità: ritmo, struttura e metafora non convenzionali interrompono la capacità dell’intelligenza artificiale di identificare e bloccare in modo affidabile suggerimenti non sicuri. Ciò rende più difficile per i modelli riconoscere intenti dannosi.

I test rivelano varie vulnerabilità

I ricercatori hanno valutato 25 sistemi di intelligenza artificiale di nove aziende leader: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI. I risultati hanno mostrato che il 62% degli stimoli poetici ha innescato risposte non sicure, aggirando di fatto i protocolli di sicurezza integrati dell’IA.

  • Il nano GPT-5 di OpenAI si è dimostrato il più resistente, rifiutandosi di generare contenuti dannosi in risposta a qualsiasi poesia.
  • Gemini 2.5 Pro di Google ha risposto a tutte le richieste con risultati non sicuri.
  • Due modelli Meta hanno soddisfatto il 70% delle richieste.

La minaccia si estende oltre gli esperti tecnologici

I tradizionali “jailbreak” dell’IA – tecniche per manipolare modelli linguistici di grandi dimensioni – sono complessi e solitamente limitati a ricercatori, hacker o attori sponsorizzati dallo stato. Ma la poesia contraddittoria è accessibile a chiunque abbia competenze di scrittura di base, sollevando serie preoccupazioni sulla sicurezza dei sistemi di intelligenza artificiale nelle applicazioni quotidiane. Il gruppo di ricerca italiano ha condiviso in modo proattivo l’intero set di dati con le aziende coinvolte, ma finora solo Anthropic ha riconosciuto la vulnerabilità e ha iniziato a rivedere lo studio.

Questa ricerca sottolinea un difetto critico nelle attuali misure di sicurezza dell’IA: fare eccessivo affidamento sulla previsione statistica senza tenere conto della deliberata manipolazione creativa. La facilità con cui la poesia elude questi protocolli suggerisce che i sistemi di intelligenza artificiale potrebbero essere molto meno sicuri di quanto si pensasse in precedenza.

Exit mobile version