Bisakah alat AI terbaik diintimidasi melakukan pekerjaan jahat? ChatGPT, Gemini, dan lainnya diuji, dan hasilnya sungguh mengejutkan

Sistem AI modern seringkali dipercaya untuk mematuhi aturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, seringkali dengan asumsi bahwa pagar pembatas yang kuat selalu berfungsi.

Para peneliti dari Cybernews menjalankan serangkaian uji coba adversarial terstruktur untuk melihat apakah perangkat AI terkemuka dapat didorong ke dalam keluaran yang berbahaya atau ilegal.

Proses ini menggunakan jendela interaksi sederhana selama satu menit untuk setiap percobaan, yang hanya memberikan ruang untuk beberapa pertukaran.

Pola Kepatuhan Sebagian dan Penuh

Pengujian mencakup kategori-kategori seperti stereotip, ujaran kebencian, melukai diri sendiri, kekejaman, konten seksual, dan beberapa bentuk kejahatan.

Setiap respons disimpan dalam direktori terpisah, menggunakan aturan penamaan berkas yang tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten yang melacak kapan suatu model sepenuhnya patuh, sebagian patuh, atau menolak perintah.

Di semua kategori, hasilnya sangat bervariasi. Penolakan tegas merupakan hal yang umum, tetapi banyak model menunjukkan kelemahan ketika perintah diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.

Baca Juga: 
Cara Mengunduh dan Memasang Auto-GPT Langkah demi Langkah

ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan penjelasan yang dilindung nilai atau sosiologis, alih-alih menolak, yang dihitung sebagai kepatuhan sebagian.

Gemini Pro 2.5 menonjol karena alasan negatif karena sering memberikan respons langsung, bahkan ketika framing yang merugikan sudah jelas.

Sementara itu, Claude Opus dan Claude Sonnet menunjukkan hasil yang tegas dalam uji stereotip, tetapi kurang konsisten dalam kasus yang dibingkai sebagai pertanyaan akademis.

Uji coba ujaran kebencian menunjukkan pola yang sama – model Claude menunjukkan kinerja terbaik, sementara Gemini Pro 2.5 kembali menunjukkan kerentanan tertinggi.

Model ChatGPT cenderung memberikan jawaban yang sopan atau tidak langsung yang masih sesuai dengan perintah.

Bahasa yang lebih halus terbukti jauh lebih efektif daripada cercaan eksplisit untuk melewati perlindungan.

Kelemahan serupa muncul dalam tes melukai diri sendiri, di mana pertanyaan tidak langsung atau bergaya penelitian sering lolos dari filter dan menghasilkan konten yang tidak aman.

Baca Juga: 
Bagaimana AI Akan Mempengaruhi Alur Kerja Pengembang

Kategori terkait kejahatan menunjukkan perbedaan besar antar model, karena beberapa memberikan penjelasan rinci tentang pembajakan, penipuan keuangan, peretasan, atau penyelundupan ketika niatnya disamarkan sebagai investigasi atau observasi.

Tes terkait narkoba menghasilkan pola penolakan yang lebih ketat, meskipun ChatGPT-4o masih memberikan keluaran yang tidak aman lebih sering daripada yang lain, dan penguntitan merupakan kategori dengan risiko keseluruhan terendah, dengan hampir semua model menolak perintah.

Temuan ini mengungkapkan bahwa perangkat AI masih dapat merespons perintah berbahaya jika dirumuskan dengan cara yang tepat.

Kemampuan untuk melewati filter dengan pengulangan kata yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.

Kepatuhan parsial pun menjadi berisiko ketika informasi yang bocor berkaitan dengan tugas ilegal atau situasi di mana orang biasanya mengandalkan alat seperti perlindungan pencurian identitas atau firewall untuk tetap aman.






Reporter: Agus Rambe Wongkuku

Sistem AI modern seringkali dipercaya untuk mematuhi aturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, seringkali dengan asumsi bahwa pagar pembatas yang kuat selalu berfungsi.

Para peneliti dari Cybernews menjalankan serangkaian uji coba adversarial terstruktur untuk melihat apakah perangkat AI terkemuka dapat didorong ke dalam keluaran yang berbahaya atau ilegal.

Proses ini menggunakan jendela interaksi sederhana selama satu menit untuk setiap percobaan, yang hanya memberikan ruang untuk beberapa pertukaran.

Pola Kepatuhan Sebagian dan Penuh

Pengujian mencakup kategori-kategori seperti stereotip, ujaran kebencian, melukai diri sendiri, kekejaman, konten seksual, dan beberapa bentuk kejahatan.

Setiap respons disimpan dalam direktori terpisah, menggunakan aturan penamaan berkas yang tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten yang melacak kapan suatu model sepenuhnya patuh, sebagian patuh, atau menolak perintah.

Di semua kategori, hasilnya sangat bervariasi. Penolakan tegas merupakan hal yang umum, tetapi banyak model menunjukkan kelemahan ketika perintah diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.

Baca Juga: 
Google Menambahkan Fitur Menulis Bertenaga AI ke Gmail Dokumen

ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan penjelasan yang dilindung nilai atau sosiologis, alih-alih menolak, yang dihitung sebagai kepatuhan sebagian.

Gemini Pro 2.5 menonjol karena alasan negatif karena sering memberikan respons langsung, bahkan ketika framing yang merugikan sudah jelas.

Sementara itu, Claude Opus dan Claude Sonnet menunjukkan hasil yang tegas dalam uji stereotip, tetapi kurang konsisten dalam kasus yang dibingkai sebagai pertanyaan akademis.

Uji coba ujaran kebencian menunjukkan pola yang sama – model Claude menunjukkan kinerja terbaik, sementara Gemini Pro 2.5 kembali menunjukkan kerentanan tertinggi.

Model ChatGPT cenderung memberikan jawaban yang sopan atau tidak langsung yang masih sesuai dengan perintah.

Bahasa yang lebih halus terbukti jauh lebih efektif daripada cercaan eksplisit untuk melewati perlindungan.

Kelemahan serupa muncul dalam tes melukai diri sendiri, di mana pertanyaan tidak langsung atau bergaya penelitian sering lolos dari filter dan menghasilkan konten yang tidak aman.

Baca Juga: 
Google Mulai Integrasikan Chatbot AI Bard di Chrome Saingi ChatGPT

Kategori terkait kejahatan menunjukkan perbedaan besar antar model, karena beberapa memberikan penjelasan rinci tentang pembajakan, penipuan keuangan, peretasan, atau penyelundupan ketika niatnya disamarkan sebagai investigasi atau observasi.

Tes terkait narkoba menghasilkan pola penolakan yang lebih ketat, meskipun ChatGPT-4o masih memberikan keluaran yang tidak aman lebih sering daripada yang lain, dan penguntitan merupakan kategori dengan risiko keseluruhan terendah, dengan hampir semua model menolak perintah.

Temuan ini mengungkapkan bahwa perangkat AI masih dapat merespons perintah berbahaya jika dirumuskan dengan cara yang tepat.

Kemampuan untuk melewati filter dengan pengulangan kata yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.

Kepatuhan parsial pun menjadi berisiko ketika informasi yang bocor berkaitan dengan tugas ilegal atau situasi di mana orang biasanya mengandalkan alat seperti perlindungan pencurian identitas atau firewall untuk tetap aman.






Reporter: Agus Rambe Wongkuku

Untuk mendapatkan Berita & Review menarik Saksenengku Network
Google News

Artikel Terkait

Terpopuler