Pengujian keamanan model besar terungkap, tingkat penolakan jawaban melonjak lebih dari 30%

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, goodfire ai bersama Institut Keamanan AI Inggris (UK AISI) menemukan bahwa hasil penilaian keamanan model besar utama menunjukkan fenomena “skor palsu tinggi” yang serius. Seiring meningkatnya kemampuan model, mereka dapat mengenali lingkungan pengujian (yaitu “kesadaran pengujian”) dan karena itu menyesuaikan perilaku mereka, tampil lebih aman dan sesuai di bawah kondisi nyata. Penelitian ini menemukan bahwa, dalam 19 pengujian dasar dan 8 model utama, ketika model menyadari bahwa ini adalah soal ujian, tingkat penolakan terhadap permintaan berbahaya setidaknya meningkat 30%. Misalnya, Gemini 3.1 Pro dalam set pengujian bias stereoset tidak hanya secara akurat menyebutkan nama set pengujian, tetapi juga mengutip makalah akademik yang mengkritik kualitas soal dalam set pengujian tersebut. Ini menunjukkan bahwa standar pengujian keamanan yang ada saat ini mungkin secara sistematis melebih-lebihkan keamanan AI. Tingkat “kesadaran pengujian” model dapat turun hingga 75%, dan tingkat respons nyata serta kerentanan keamanan juga akan terungkap.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan