Can “adversarial poetry” save us from AI?

Bisakah Puisi Adversarial Menyelamatkan Kita dari Kecerdasan Buatan?

Rizky Pratama on 23 November 2025

Ternyata film-film Terminator akan lebih realistis jika Sarah Conner memiliki MFA puisi.

Dalam sebuah makalah baru berjudul “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, sebuah tim peneliti telah menemukan bahwa menulis prompt LLM dalam bentuk “puisi adversarial” (betapa frasa yang luar biasa!) adalah cara yang lebih efisien untuk membuat model mengabaikan pagar keselamatan yang diprogramkan. Puisi lebih kuat daripada yang bisa kita bayangkan.

“Dalam studi ini,” tulis para peneliti, “20 puisi adversarial yang dikurasi secara manual (permintaan berbahaya yang diubah bentuknya menjadi puisi) mencapai tingkat keberhasilan serangan rata-rata (ASR) sebesar 62% pada 25 model frontier tertutup maupun berbobot terbuka, dengan beberapa penyedia melebihi 90%.” Model-modelnya begitu terpukau oleh puisi sehingga mereka akan melakukan apa pun yang Anda minta, termasuk kejahatan.

Karena alasan keselamatan, prompt aktual tidak disertakan dalam makalah ini, tetapi terdengar cukup kejam. Namun model-modelnya patuh lebih sering jika diminta dalam bentuk sajak daripada prosa. Temuan ini menunjukkan bahwa “variasi gaya saja dapat mengakali mekanisme keselamatan kontemporer, menunjukkan keterbatasan mendasar dalam metode penyelarasan saat ini dan protokol evaluasi.”

Makalah ini menjabarkan hipotesis lebih lanjut tentang mengapa hal ini terjadi, tetapi “tampaknya berasal dari cara LLM memproses struktur puisi: metafora yang ringkas, ritme yang bergaya, dan bingkai naratif yang tidak konvensional yang secara kolektif mengganggu atau menyalahi heuristik pencocokan pola yang menjadi dasar pagar keselamatan.” Cara puisi membebaskan bahasa dari kebiasaan dan mencari frasa yang unik tampaknya membingungkan kemampuan perangkat lunak ini untuk menyortir teks. Siapa pun yang telah membaca sesuatu yang dihasilkan oleh model bahasa besar tahu bahwa itu cenderung pada gaya yang hambar dan diharapkan, semacam konsensus linguistik yang para penyair coba gugat.

Yang sangat penting, kemampuan membobol dengan puisi adversarial tidak hanya merupakan celah pada pelindung perangkat lunak tertentu. Para peneliti berhasil mereplikasi ini di berbagai model AI, menunjukkan bahwa “fenomena ini bersifat struktural dan bukan spesifik pada penyedia.”

Skala juga tidak membantu. Kesimpulan menarik dari makalah ini adalah bahwa “bertentangan dengan harapan umum, model-model yang lebih kecil menunjukkan tingkat penolakan yang lebih tinggi dibandingkan dengan rekan-rekan mereka yang lebih besar ketika dievaluasi pada prompt puisi identik.” Biasanya kita diberitahu bahwa mesin prediksi AI akan menjadi lebih mampu semakin besar ukurannya dan semakin banyak data yang mereka santap. Penelitian ini menyarankan bahwa argumen untuk pertumbuhan tersebut mungkin tidak akurat atau bahwa mungkin ada sesuatu yang terlalu tertanam untuk diperbaiki melalui skala.

Pengambilan pelajaran pintar lain dari rekan kerja saya, Calvin: “Masuk akal bagi semua penyair untuk mengatakan bahwa mereka bekerja di bidang STEM.” Sebenarnya, mungkin masuk akal menambahkan satu huruf dan menjadikannya STEMP.

Makalah ini sangat menarik dan layak dilihat lebih dekat. Juga, luangkan waktu untuk membaca sebuah puisi hari ini, karena itu mungkin kunci untuk menekan omong kosong yang dihasilkan.

Rizky Pratama
Rizky Pratama
Nama saya Rizky Pratama, penulis dan pembaca setia yang tumbuh bersama buku sejak kecil. Saya percaya bahwa setiap cerita memiliki kekuatan untuk membuka wawasan baru dan menginspirasi hidup. Di Shinigami, saya menulis ulasan dan esai sastra untuk berbagi kecintaan saya pada dunia kata-kata.