Inception Labs đã ra mắt Mercury 2, một mô hình lý luận dựa trên phân tán có khả năng tạo ra hơn 1.000 token mỗi giây, nhanh gấp ba lần so với các mô hình tương tự.
Inception Labs, một công ty khởi nghiệp về AI, đã giới thiệu Mercury 2, một Mô hình Ngôn ngữ Lớn (LLM) dựa trên phân tán nhằm tăng tốc đáng kể các nhiệm vụ lý luận trong các ứng dụng AI sản xuất.
Khác với các mô hình tự động dựa trên sinh tự nhiên truyền thống tạo ra văn bản theo trình tự, Mercury 2 sử dụng quá trình tinh chỉnh song song, tạo ra nhiều token cùng lúc và hội tụ qua một số bước nhỏ, cho phép tốc độ trên 1.000 token mỗi giây trên GPU NVIDIA Blackwell—gần gấp ba lần các mô hình cạnh tranh cùng mức giá.
Mô hình được tối ưu hóa cho phản hồi thời gian thực trong các quy trình AI phức tạp, nơi độ trễ tích tụ qua nhiều lần gọi suy luận, quy trình truy xuất và vòng lặp tác nhân. Mercury 2 duy trì chất lượng lý luận cao trong khi giảm độ trễ, cho phép các nhà phát triển, hệ thống AI thoại, công cụ tìm kiếm và các ứng dụng tương tác khác hoạt động với hiệu suất lý luận mà không gặp phải độ trễ của sinh tự nhiên theo trình tự. Nó hỗ trợ các tính năng như lý luận điều chỉnh, khung ngữ cảnh 128K token, xuất JSON phù hợp với sơ đồ, và tích hợp công cụ gốc, mang lại sự linh hoạt cho nhiều triển khai sản xuất.
Mercury 2 Cho Phép AI Độ Trễ Thấp Trong Các Quy Trình Lập Trình, Thoại Và Tìm Kiếm
Báo cáo nhấn mạnh một số trường hợp sử dụng trong đó lý luận độ trễ thấp là rất quan trọng. Trong quy trình lập trình và chỉnh sửa, Mercury 2 cung cấp tự động hoàn thành nhanh chóng và đề xuất chỉnh sửa tiếp theo tích hợp liền mạch với quá trình suy nghĩ của nhà phát triển. Trong các quy trình tác nhân, mô hình cho phép nhiều bước suy luận hơn mà không vượt quá ngân sách độ trễ, nâng cao chất lượng và độ sâu của quyết định tự động. Các ứng dụng dựa trên thoại và tương tác hưởng lợi từ khả năng tạo ra phản hồi chất lượng lý luận trong nhịp điệu tự nhiên của lời nói, nâng cao trải nghiệm người dùng trong các cuộc trò chuyện thời gian thực. Ngoài ra, Mercury 2 hỗ trợ các quy trình tìm kiếm và truy xuất đa bước, cho phép tóm tắt nhanh, xếp hạng lại và lý luận mà không làm giảm thời gian phản hồi.
Những người dùng sớm đã ghi nhận sự cải thiện đáng kể về năng suất và trải nghiệm người dùng. Mercury 2 được mô tả nhanh hơn ít nhất gấp đôi GPT-5.2 trong khi vẫn duy trì chất lượng cạnh tranh, với các ứng dụng bao gồm làm sạch bản ghi thời gian thực, giao diện tương tác người-máy, tối ưu hóa quảng cáo tự động và các nhân vật AI hỗ trợ thoại.
Mô hình tương thích với API của OpenAI, cho phép tích hợp vào các hệ thống hiện có mà không cần sửa đổi lớn, và Inception Labs cung cấp hỗ trợ cho đánh giá doanh nghiệp, xác nhận hiệu suất và hướng dẫn triển khai theo khối lượng công việc cụ thể. Mercury 2 đại diện cho bước tiến trong các LLM dựa trên phân tán, định hình lại cân bằng giữa chất lượng lý luận và độ trễ trong các môi trường AI sản xuất.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Inception Labs ra mắt Mercury 2, Mô hình lý luận dựa trên khuếch tán đạt hơn 1.000 token mỗi giây
Tóm tắt
Inception Labs đã ra mắt Mercury 2, một mô hình lý luận dựa trên phân tán có khả năng tạo ra hơn 1.000 token mỗi giây, nhanh gấp ba lần so với các mô hình tương tự.
Inception Labs, một công ty khởi nghiệp về AI, đã giới thiệu Mercury 2, một Mô hình Ngôn ngữ Lớn (LLM) dựa trên phân tán nhằm tăng tốc đáng kể các nhiệm vụ lý luận trong các ứng dụng AI sản xuất.
Khác với các mô hình tự động dựa trên sinh tự nhiên truyền thống tạo ra văn bản theo trình tự, Mercury 2 sử dụng quá trình tinh chỉnh song song, tạo ra nhiều token cùng lúc và hội tụ qua một số bước nhỏ, cho phép tốc độ trên 1.000 token mỗi giây trên GPU NVIDIA Blackwell—gần gấp ba lần các mô hình cạnh tranh cùng mức giá.
Mô hình được tối ưu hóa cho phản hồi thời gian thực trong các quy trình AI phức tạp, nơi độ trễ tích tụ qua nhiều lần gọi suy luận, quy trình truy xuất và vòng lặp tác nhân. Mercury 2 duy trì chất lượng lý luận cao trong khi giảm độ trễ, cho phép các nhà phát triển, hệ thống AI thoại, công cụ tìm kiếm và các ứng dụng tương tác khác hoạt động với hiệu suất lý luận mà không gặp phải độ trễ của sinh tự nhiên theo trình tự. Nó hỗ trợ các tính năng như lý luận điều chỉnh, khung ngữ cảnh 128K token, xuất JSON phù hợp với sơ đồ, và tích hợp công cụ gốc, mang lại sự linh hoạt cho nhiều triển khai sản xuất.
Mercury 2 Cho Phép AI Độ Trễ Thấp Trong Các Quy Trình Lập Trình, Thoại Và Tìm Kiếm
Báo cáo nhấn mạnh một số trường hợp sử dụng trong đó lý luận độ trễ thấp là rất quan trọng. Trong quy trình lập trình và chỉnh sửa, Mercury 2 cung cấp tự động hoàn thành nhanh chóng và đề xuất chỉnh sửa tiếp theo tích hợp liền mạch với quá trình suy nghĩ của nhà phát triển. Trong các quy trình tác nhân, mô hình cho phép nhiều bước suy luận hơn mà không vượt quá ngân sách độ trễ, nâng cao chất lượng và độ sâu của quyết định tự động. Các ứng dụng dựa trên thoại và tương tác hưởng lợi từ khả năng tạo ra phản hồi chất lượng lý luận trong nhịp điệu tự nhiên của lời nói, nâng cao trải nghiệm người dùng trong các cuộc trò chuyện thời gian thực. Ngoài ra, Mercury 2 hỗ trợ các quy trình tìm kiếm và truy xuất đa bước, cho phép tóm tắt nhanh, xếp hạng lại và lý luận mà không làm giảm thời gian phản hồi.
Những người dùng sớm đã ghi nhận sự cải thiện đáng kể về năng suất và trải nghiệm người dùng. Mercury 2 được mô tả nhanh hơn ít nhất gấp đôi GPT-5.2 trong khi vẫn duy trì chất lượng cạnh tranh, với các ứng dụng bao gồm làm sạch bản ghi thời gian thực, giao diện tương tác người-máy, tối ưu hóa quảng cáo tự động và các nhân vật AI hỗ trợ thoại.
Mô hình tương thích với API của OpenAI, cho phép tích hợp vào các hệ thống hiện có mà không cần sửa đổi lớn, và Inception Labs cung cấp hỗ trợ cho đánh giá doanh nghiệp, xác nhận hiệu suất và hướng dẫn triển khai theo khối lượng công việc cụ thể. Mercury 2 đại diện cho bước tiến trong các LLM dựa trên phân tán, định hình lại cân bằng giữa chất lượng lý luận và độ trễ trong các môi trường AI sản xuất.