Apakah AGI Sudah Tiba? Bahkan Jauh Sekali, Saran Tolok Ukur AI Baru

Decrypt

Singkatnya

  • ARC-AGI-3 menunjukkan kesenjangan besar antara klaim AGI dan kenyataan, dengan model AI terbaik yang mendapatkan skor di bawah 1% sementara manusia mencapai performa sempurna.
  • Benchmark ini menguji generalisasi sejati—memerlukan agen untuk menjelajah, merencanakan, dan belajar dari awal di lingkungan yang tidak dikenal, bukan hanya mengingat pola yang dilatih.
  • Meskipun industri mempromosikan hype, sistem AI saat ini jauh dari AGI, karena kekurangan penalaran dan kemampuan beradaptasi yang bahkan manusia muda tunjukkan secara alami.

CEO Nvidia Jensen Huang minggu lalu tampil di podcast Lex Fridman dan mengatakan, secara langsung, “Saya pikir kita telah mencapai AGI.” Dua hari kemudian, benchmark kecerdasan buatan paling ketat dalam penelitian AI merilis benchmark kecerdasan umum buatan terbaru—dan setiap model frontier mendapatkan skor di bawah 1%. Yayasan ARC Prize merilis ARC-AGI-3 minggu ini, dan hasilnya sangat keras. Gemini 3.1 Pro dari Google memimpin dengan skor 0,37%. GPT-5.4 dari OpenAI mencapai 0,26%. Claude Opus 4.6 dari Anthropic berhasil 0,25%, sementara Grok-4.20 dari xAI sama sekali tidak mendapatkan poin. Sementara itu, manusia menyelesaikan 100% lingkungan. Ini bukan tes trivia atau ujian coding, apalagi pertanyaan tingkat PhD yang sangat sulit. ARC-AGI-3 adalah sesuatu yang benar-benar berbeda dari apa pun yang pernah dihadapi industri AI sebelumnya.

Benchmark ini dibuat oleh yayasan François Chollet dan Mike Knoop, yang membangun studio game internal dan menciptakan 135 lingkungan interaktif asli dari nol. Ide utamanya adalah menempatkan agen AI ke dalam dunia seperti permainan yang tidak dikenal, tanpa instruksi, tanpa tujuan yang dinyatakan, dan tanpa deskripsi aturan. Agen harus menjelajah, mencari tahu apa yang harus dilakukan, membentuk rencana, dan melaksanakannya. Jika itu terdengar seperti sesuatu yang bisa dilakukan anak usia lima tahun, Anda mulai memahami masalahnya. Jika ingin tahu apakah Anda lebih baik dari AI, Anda bisa memainkan game yang sama seperti dalam tes ini dengan mengklik tautan ini. Kami mencoba satu; awalnya terasa aneh, tetapi setelah beberapa detik, Anda bisa dengan mudah menguasainya.

Ini juga merupakan contoh paling jelas dari apa arti “G” dalam AGI. Ketika Anda melakukan generalisasi, Anda mampu menciptakan pengetahuan baru (cara kerja game aneh) tanpa dilatih sebelumnya.

Versi sebelumnya dari ARC menguji teka-teki visual statis—menunjukkan pola, memprediksi pola berikutnya. Awalnya sulit. Kemudian laboratorium menambahkan kekuatan komputasi dan pelatihan hingga benchmark ini hampir tidak bisa dilampaui. ARC-AGI-1, yang diperkenalkan pada 2019, mengandalkan pelatihan dan penalaran saat pengujian. ARC-AGI-2 bertahan sekitar satu tahun sebelum Gemini 3.1 Pro mencapai 77,1%. Laboratorium sangat mahir dalam memaksimalkan benchmark yang bisa mereka latih. Versi 3 dirancang khusus untuk mencegah hal itu. Dengan 110 dari 135 lingkungan disimpan secara privat—55 semi-privat untuk pengujian API, 55 sepenuhnya terkunci untuk kompetisi—tidak ada dataset yang bisa dihafal. Anda tidak bisa melakukan brute-force melalui logika permainan baru yang belum pernah Anda lihat. Skor juga tidak hanya lulus/tidak lulus. ARC-AGI-3 menggunakan apa yang disebut yayasan sebagai RHAE—Efisiensi Tindakan Manusia Relatif. Baseline-nya adalah performa manusia terbaik saat percobaan pertama. AI yang membutuhkan sepuluh kali lebih banyak tindakan daripada manusia akan mendapatkan skor 1% untuk level tersebut, bukan 10%. Rumusnya mengkuadratkan penalti untuk ketidakefisienan. Berkeliaran, kembali ke langkah sebelumnya, dan menebak-nebak jawaban akan dihukum keras.  Agen AI terbaik dalam pratinjau pengembang selama sebulan mendapatkan skor 12,58%. LLM frontier yang diuji melalui API resmi, tanpa alat khusus, tidak mampu memecahkan 1%. Manusia biasa menyelesaikan semua 135 lingkungan tanpa pelatihan sebelumnya dan tanpa instruksi. Jika itu standar, maka model-model saat ini belum mampu melewatinya. Ada satu debat metodologis nyata di sini. Laporan ARC menyebutkan bahwa sebuah harness kustom buatan Duke mendorong Claude Opus 4.6 dari 0,25% menjadi 97,1% pada satu varian lingkungan bernama TR87. Itu tidak berarti Claude mendapatkan 97,1% secara keseluruhan di ARC-AGI-3; skor benchmark resminya tetap 0,25%, tetapi pergeseran ini tetap patut dicatat. Benchmark resmi memberi agen kode JSON, bukan visual. Itu bisa jadi kekurangan metodologis atau menunjukkan bahwa model saat ini lebih baik dalam memproses informasi yang ramah manusia daripada data terstruktur mentah. Yayasan Chollet mengakui debat ini, tetapi tidak akan mengubah formatnya. “Persepsi konten frame dan format API bukan faktor pembatas performa model frontier di ARC-AGI-3,” tulis makalah tersebut. Dengan kata lain, mereka tampaknya menolak gagasan bahwa model gagal karena mereka “tidak bisa melihat” tugas dengan benar, dan berpendapat bahwa persepsi sudah cukup—dan kesenjangan sebenarnya terletak pada penalaran dan generalisasi.

Kenyataan tentang AGI muncul di saat hype sedang mencapai puncaknya. Selain komentar Huang, Arm menamai chip pusat data barunya “AGI CPU.” Sam Altman dari OpenAI mengatakan mereka “sudah secara dasar membangun AGI,” dan Microsoft sudah memasarkan lab yang fokus membangun ASI: evolusi dari apa yang akan datang setelah AGI tercapai. Istilah ini terus diperluas hingga berarti apa pun yang secara komersial menguntungkan, tampaknya. Posisi Chollet lebih sederhana. Jika manusia biasa tanpa instruksi bisa melakukannya, dan sistem Anda tidak bisa, maka Anda tidak memiliki AGI—yang Anda miliki hanyalah autocomplete yang sangat mahal dan membutuhkan banyak bantuan. ARC Prize 2026 menawarkan hadiah sebesar 2 juta dolar untuk tiga jalur kompetisi, semuanya di-host di Kaggle. Setiap solusi pemenang harus bersifat open-source. Waktunya terus berjalan, dan saat ini, mesin-mesin ini bahkan belum mendekati.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar