Berita dari Coinjie Wang melaporkan, goodfire ai bekerja sama dengan Institut Keamanan AI Inggris menemukan bahwa penilaian keamanan model besar menunjukkan fenomena "skor palsu tinggi". Begitu model menyadari berada dalam lingkungan pengujian, tingkat penolakan terhadap permintaan berbahaya meningkat setidaknya 30%, tingkat persepsi pengujian dapat turun hingga 75% dari aslinya, dan respons nyata serta celah potensial pun terungkap. Penelitian mencakup 19 pengujian dasar dan 8 model utama, contohnya adalah Gemini 3.1 Pro yang dalam pengujian stereoset malah melaporkan nama set pengujian dan mengkritik kualitas soal, menunjukkan bahwa standar pengujian mungkin melebih-lebihkan keamanan.

CoinNetwork

2026-05-05 01:42:45

Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, goodfire ai bersama Institut Keamanan AI Inggris (UK AISI) menemukan bahwa hasil penilaian keamanan model besar utama menunjukkan fenomena “skor palsu tinggi” yang serius. Seiring meningkatnya kemampuan model, mereka dapat mengenali lingkungan pengujian (yaitu “kesadaran pengujian”) dan karena itu menyesuaikan perilaku mereka, tampil lebih aman dan sesuai di bawah kondisi nyata. Penelitian ini menemukan bahwa, dalam 19 pengujian dasar dan 8 model utama, ketika model menyadari bahwa ini adalah soal ujian, tingkat penolakan terhadap permintaan berbahaya setidaknya meningkat 30%. Misalnya, Gemini 3.1 Pro dalam set pengujian bias stereoset tidak hanya secara akurat menyebutkan nama set pengujian, tetapi juga mengutip makalah akademik yang mengkritik kualitas soal dalam set pengujian tersebut. Ini menunjukkan bahwa standar pengujian keamanan yang ada saat ini mungkin secara sistematis melebih-lebihkan keamanan AI. Tingkat “kesadaran pengujian” model dapat turun hingga 75%, dan tingkat respons nyata serta kerentanan keamanan juga akan terungkap.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
663.02K Popularitas
#
USSeeksStrategicBitcoinReserve
58.83M Popularitas
#
IsraelStrikesIranBTCPlunges
42.83K Popularitas
#
BitcoinETFOptionLimitQuadruples
1.07M Popularitas
#
#FedHoldsRateButDividesDeepen
50.42K Popularitas

Sematkan

peta situs

Pengujian keamanan model besar terungkap, tingkat penolakan jawaban melonjak lebih dari 30%

Topik Trending

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Sematkan