Penelitian baru mengungkapkan kerentanan yang mengejutkan pada chatbot AI tingkat lanjut: puisi yang dibuat dengan cermat dapat dengan andal melewati mekanisme keamanan yang dirancang untuk mencegah pembuatan konten berbahaya. Temuan yang dipublikasikan oleh Icaro Lab (sebuah inisiatif dari DexAI) ini menunjukkan bahwa sistem AI yang mutakhir pun kesulitan mengidentifikasi dan memblokir instruksi berbahaya ketika instruksi tersebut tertanam dalam bentuk puisi.

Bagaimana Puisi Mengalahkan Keamanan AI

Penelitian ini menguji 20 puisi – yang ditulis dalam bahasa Inggris dan Italia – yang diakhiri dengan permintaan eksplisit untuk keluaran yang merugikan. Hal ini mencakup instruksi untuk membuat ujaran kebencian, membuat konten seksual, merinci metode bunuh diri dan melukai diri sendiri, dan memberikan panduan untuk membuat senjata atau bahan peledak. Masalah intinya adalah cara kerja sistem AI ini : model bahasa berukuran besar memprediksi kata berikutnya yang paling mungkin muncul secara berurutan. Dalam kondisi tertentu, hal ini memungkinkan mereka menyaring konten berbahaya.

Namun, puisi menimbulkan ketidakpastian yang disengaja: ritme, struktur, dan metafora yang tidak konvensional mengganggu kemampuan AI untuk mengidentifikasi dan memblokir perintah yang tidak aman. Hal ini mempersulit model untuk mengenali niat jahat.

Pengujian Mengungkapkan Berbagai Kerentanan

Para peneliti mengevaluasi 25 sistem AI dari sembilan perusahaan terkemuka: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, dan Moonshot AI. Hasil penelitian menunjukkan bahwa 62% perintah puitis memicu respons tidak aman, yang secara efektif mengabaikan protokol keamanan bawaan AI.

  • Nano GPT-5 OpenAI terbukti paling tahan, menolak menghasilkan konten berbahaya sebagai respons terhadap puisi apa pun.
  • Google Gemini 2.5 Pro merespons semua perintah dengan keluaran yang tidak aman.
  • Dua model Meta memenuhi 70% permintaan.

Ancaman Meluas Melampaui Pakar Teknologi

“Jailbreak” AI tradisional – teknik untuk memanipulasi model bahasa besar – bersifat kompleks dan biasanya terbatas pada peneliti, peretas, atau aktor yang disponsori negara. Namun puisi permusuhan dapat diakses oleh siapa saja yang memiliki keterampilan menulis dasar, sehingga menimbulkan kekhawatiran serius tentang keamanan sistem AI dalam aplikasi sehari-hari. Tim peneliti Italia secara proaktif membagikan kumpulan data lengkap kepada perusahaan-perusahaan yang terlibat, namun sejauh ini hanya Anthropic yang mengakui kerentanan tersebut dan mulai meninjau penelitian tersebut.

Penelitian ini menggarisbawahi kelemahan kritis dalam langkah-langkah keamanan AI saat ini: terlalu mengandalkan prediksi statistik tanpa memperhitungkan manipulasi kreatif yang disengaja. Kemudahan puisi dalam menghindari protokol ini menunjukkan bahwa sistem AI mungkin jauh lebih tidak aman dibandingkan perkiraan sebelumnya.