SWE-rebench รายชื่อล่าสุด: โมเดล AI ของจีนครองอันดับ 14 อันดับแรก GLM-5 อยู่อันดับที่สาม

ข่าว Gate News เมื่อวันที่ 25 มีนาคม ผู้ดูแลการทดสอบมาตรฐาน SWE-rebench Ibragim ได้ประกาศอัปเดตรายชื่อเมื่อวันที่ 23 มีนาคม SWE-rebench เป็นการทดสอบมาตรฐานแบบเรียลไทม์ที่ดึงข้อมูลงานด้านวิศวกรรมซอฟต์แวร์ใหม่จาก GitHub ทุกเดือน โดยโมเดลไม่สามารถปรับแต่งล่วงหน้าตามโจทย์ได้ การอัปเดตครั้งนี้ได้ยกเลิกตัวอย่างสาธิตและข้อจำกัดการดำเนินการ 80 ขั้นตอน พร้อมเพิ่มภารกิจการประเมินผลช่วย

อันดับสิบอันดับล่าสุด: 1. Claude Opus 4.6 (65.3%);2. GPT-5.2 medium (64.4%);3. GLM-5 (62.8%);4. GPT-5.4 medium (62.8%);5. Gemini 3.1 Pro Preview (62.3%);6. DeepSeek-V3.2 (60.9%);7. Claude Sonnet 4.6 (60.7%);8. Claude Sonnet 4.5 (60.0%);9. Qwen3.5-397B-A17B (59.9%);10. Step-3.5-Flash (59.6%)

โมเดลโอเพนซอร์สของ Zhizhi Pu AI จาก Z.ai คือ GLM-5 (สัญญาอนุญาต MIT) ซึ่งมีคะแนน 62.8% อยู่ในอันดับที่สาม เป็นโมเดลโอเพนซอร์สที่ดีที่สุดในตารางจีนโมเดลครองอันดับในสิบอันดับแรกสี่ตำแหน่ง นอกจาก GLM-5 แล้ว ยังมี DeepSeek-V3.2 (อันดับที่หก)、Qwen3.5-397B-A17B (อันดับที่เก้า)、และ Step-3.5-Flash (อันดับที่สิบ) หัวหน้าฝ่ายระดับโลกของ Zhizhi Pu Z.ai กล่าวว่า ในการอัปเดต SWE-rebench ครั้งล่าสุด โมเดลจีนทั้งหมดอยู่นอกสิบอันดับแรก

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น