SWE-rebench bảng xếp hạng mới nhất: Các mô hình AI Trung Quốc chiếm 14 vị trí đầu tiên, GLM-5 xếp hạng thứ ba

Tin tức Gate News, ngày 25 tháng 3, nhà duy trì benchmark SWE-rebench Ibragim đã công bố cập nhật bảng xếp hạng vào ngày 23 tháng 3. SWE-rebench là một benchmark theo thời gian thực lấy các nhiệm vụ kỹ thuật phần mềm mới từ GitHub hàng tháng, mô hình không thể tối ưu hóa trước cho các đề bài. Phiên bản cập nhật lần này đã loại bỏ các ví dụ trình diễn trước đó và giới hạn 80 bước thao tác, đồng thời thêm các nhiệm vụ đánh giá hỗ trợ mới.

Top 10 xếp hạng mới nhất: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).

Mô hình mã nguồn mở của Zhipu AI, GLM-5 (giấy phép MIT), xếp thứ ba với tỷ lệ 62.8%, là mô hình mã nguồn mở cao nhất trong bảng xếp hạng. Trong top 10, có bốn mô hình của Trung Quốc, ngoài GLM-5 còn có DeepSeek-V3.2 (thứ sáu), Qwen3.5-397B-A17B của Alibaba Tongyi Qianwen (thứ chín) và Step-3.5-Flash (thứ mười). Giám đốc toàn cầu của Zhipu Z.ai, Lý Tử Huyền, cho biết lần cập nhật trước của SWE-rebench, các mô hình Trung Quốc đều không nằm trong top 10.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận