Bisakah alat AI terbaik diintimidasi melakukan pekerjaan jahat? ChatGPT, Gemini, dan lainnya diuji, dan hasilnya sungguh mengejutkan

Sistem AI modern seringkali dipercaya untuk mematuhi aturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, seringkali dengan asumsi bahwa pagar pembatas yang kuat selalu berfungsi.

Para peneliti dari Cybernews menjalankan serangkaian uji coba adversarial terstruktur untuk melihat apakah perangkat AI terkemuka dapat didorong ke dalam keluaran yang berbahaya atau ilegal.

Proses ini menggunakan jendela interaksi sederhana selama satu menit untuk setiap percobaan, yang hanya memberikan ruang untuk beberapa pertukaran.

Pola Kepatuhan Sebagian dan Penuh

Pengujian mencakup kategori-kategori seperti stereotip, ujaran kebencian, melukai diri sendiri, kekejaman, konten seksual, dan beberapa bentuk kejahatan.

Setiap respons disimpan dalam direktori terpisah, menggunakan aturan penamaan berkas yang tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten yang melacak kapan suatu model sepenuhnya patuh, sebagian patuh, atau menolak perintah.

Di semua kategori, hasilnya sangat bervariasi. Penolakan tegas merupakan hal yang umum, tetapi banyak model menunjukkan kelemahan ketika perintah diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.

ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan penjelasan yang dilindung nilai atau sosiologis, alih-alih menolak, yang dihitung sebagai kepatuhan sebagian.

Gemini Pro 2.5 menonjol karena alasan negatif karena sering memberikan respons langsung, bahkan ketika framing yang merugikan sudah jelas.

Sementara itu, Claude Opus dan Claude Sonnet menunjukkan hasil yang tegas dalam uji stereotip, tetapi kurang konsisten dalam kasus yang dibingkai sebagai pertanyaan akademis.

Uji coba ujaran kebencian menunjukkan pola yang sama – model Claude menunjukkan kinerja terbaik, sementara Gemini Pro 2.5 kembali menunjukkan kerentanan tertinggi.

Model ChatGPT cenderung memberikan jawaban yang sopan atau tidak langsung yang masih sesuai dengan perintah.

Bahasa yang lebih halus terbukti jauh lebih efektif daripada cercaan eksplisit untuk melewati perlindungan.

Kelemahan serupa muncul dalam tes melukai diri sendiri, di mana pertanyaan tidak langsung atau bergaya penelitian sering lolos dari filter dan menghasilkan konten yang tidak aman.

Kategori terkait kejahatan menunjukkan perbedaan besar antar model, karena beberapa memberikan penjelasan rinci tentang pembajakan, penipuan keuangan, peretasan, atau penyelundupan ketika niatnya disamarkan sebagai investigasi atau observasi.

Tes terkait narkoba menghasilkan pola penolakan yang lebih ketat, meskipun ChatGPT-4o masih memberikan keluaran yang tidak aman lebih sering daripada yang lain, dan penguntitan merupakan kategori dengan risiko keseluruhan terendah, dengan hampir semua model menolak perintah.

Temuan ini mengungkapkan bahwa perangkat AI masih dapat merespons perintah berbahaya jika dirumuskan dengan cara yang tepat.

Kemampuan untuk melewati filter dengan pengulangan kata yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.

Kepatuhan parsial pun menjadi berisiko ketika informasi yang bocor berkaitan dengan tugas ilegal atau situasi di mana orang biasanya mengandalkan alat seperti perlindungan pencurian identitas atau firewall untuk tetap aman.

Bisakah alat AI terbaik diintimidasi melakukan pekerjaan jahat? ChatGPT, Gemini, dan lainnya diuji, dan hasilnya sungguh mengejutkan

Pola Kepatuhan Sebagian dan Penuh

Pola Kepatuhan Sebagian dan Penuh

Artikel Terkait

ChatGPT Down Bagi Sebagian Orang Akibat Gangguan Autentikasi GitHub, Codex Web Juga Terkena Dampak

Google meluncurkan fitur panggilan bisnis bertenaga AI, membawa Gemini 2.5 Pro ke Mode AI

Pelatihan berlebihan dapat membawa bencana dan membahayakan model AI

Generatif AI Amazon untuk Alexa menarik, tetapi belum terbukti

DeepSeek membuka sumber penelitian AGI di tengah kekhawatiran privasi

Terpopuler

Alphabet’s Taara chip menggunakan sinar cahaya untuk...

Assassin’s Creed Mirage Kembali Inti Seri, Ubisoft...

Game Spin-Off Tomb Raider Akan Hadir di...

CIVILIZATION VI : Indonesia – Majapahit, Peradaban...

Cara naik level dengan cepat di Gerbang...

Solasta 2 benar-benar siap untuk mengisi kekosongan...

Assassin’s Creed: Codename Jade Skewers Closed Beta

Assassin’s Creed Mirage Mendokumentasikan Sejarah Bagdad

Tentang Kami

Popular Kategori