SWE-rebench รายชื่อล่าสุด: โมเดล AI ของจีนครองอันดับ 14 อันดับแรก GLM-5 อยู่อันดับที่สาม

GateNews

2026-03-25 05:55:32

ข่าว Gate News เมื่อวันที่ 25 มีนาคม ผู้ดูแลการทดสอบมาตรฐาน SWE-rebench Ibragim ได้ประกาศอัปเดตรายชื่อเมื่อวันที่ 23 มีนาคม SWE-rebench เป็นการทดสอบมาตรฐานแบบเรียลไทม์ที่ดึงข้อมูลงานด้านวิศวกรรมซอฟต์แวร์ใหม่จาก GitHub ทุกเดือน โดยโมเดลไม่สามารถปรับแต่งล่วงหน้าตามโจทย์ได้ การอัปเดตครั้งนี้ได้ยกเลิกตัวอย่างสาธิตและข้อจำกัดการดำเนินการ 80 ขั้นตอน พร้อมเพิ่มภารกิจการประเมินผลช่วย

อันดับสิบอันดับล่าสุด: 1. Claude Opus 4.6 (65.3%)；2. GPT-5.2 medium (64.4%)；3. GLM-5 (62.8%)；4. GPT-5.4 medium (62.8%)；5. Gemini 3.1 Pro Preview (62.3%)；6. DeepSeek-V3.2 (60.9%)；7. Claude Sonnet 4.6 (60.7%)；8. Claude Sonnet 4.5 (60.0%)；9. Qwen3.5-397B-A17B (59.9%)；10. Step-3.5-Flash (59.6%)

โมเดลโอเพนซอร์สของ Zhizhi Pu AI จาก Z.ai คือ GLM-5 (สัญญาอนุญาต MIT) ซึ่งมีคะแนน 62.8% อยู่ในอันดับที่สาม เป็นโมเดลโอเพนซอร์สที่ดีที่สุดในตารางจีนโมเดลครองอันดับในสิบอันดับแรกสี่ตำแหน่ง นอกจาก GLM-5 แล้ว ยังมี DeepSeek-V3.2 (อันดับที่หก)、Qwen3.5-397B-A17B (อันดับที่เก้า)、และ Step-3.5-Flash (อันดับที่สิบ) หัวหน้าฝ่ายระดับโลกของ Zhizhi Pu Z.ai กล่าวว่า ในการอัปเดต SWE-rebench ครั้งล่าสุด โมเดลจีนทั้งหมดอยู่นอกสิบอันดับแรก

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น