2025-12-03 01:27:18

Peringkat model AI bulan Desember baru saja mengalami beberapa perubahan menarik.

Ada versi baru ini—mari kita sebut "demon kecepatan agentik"—yang sangat fokus pada tiga hal: menggunakan alat dengan efisien, menangani alur kerja multi-langkah yang rumit, dan melakukannya semua dengan cepat. Sangat cepat.

Ini adalah posisi di papan peringkat:

τ²-Bench Telecom? Memuncaki grafik. Tolok ukur ini memberikan tugas agen yang sangat kompleks kepada model, jenis yang membuat sebagian besar sistem tersedak. Bukan yang ini.

Benchmark Panggilan Fungsi Berkeley? Juga berada di peringkat #1. Terjemahan: ketika Anda memintanya untuk menggunakan alat eksternal atau API, ia benar-benar menyelesaikan tugas dengan akurat alih-alih berhalusinasi omong kosong.

Apa yang membuat ini terkenal bukan hanya peringkatnya—banyak model mengklaim posisi teratas dalam tes yang dipilih dengan cermat. Ini adalah kombinasi: kecepatan + akurasi alat + kompleksitas alur kerja. Tiga hal ini penting jika Anda membangun sesuatu yang lebih dari sekadar chatbot.

Arsitektur model jelas memprioritaskan eksekusi praktis daripada luas pengetahuan umum. Pertukaran, selalu pertukaran. Tetapi untuk aplikasi agensif? Posisi ini terasa berbeda.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

16 Suka