Inception Labs เปิดตัว Mercury 2, โมเดลการให้เหตุผลแบบ Diffusion ที่ทำได้มากกว่า 1,000 โทเค็นต่อวินาที

สรุปโดยย่อ

Inception Labs ได้เปิดตัว Mercury 2 ซึ่งเป็นโมเดลการให้เหตุผลแบบกระจายที่สามารถสร้างข้อความได้มากกว่า 1,000 โทเค็นต่อวินาที ซึ่งเร็วกว่ารุ่นที่เปรียบเทียบกันถึงสามเท่า

Inception Labs Unveils Mercury 2: A Diffusion-Based LLM Delivering Over 1,000 Tokens Per Second For Low-Latency AI Applications

Inception Labs สตาร์ทอัปด้าน AI ได้เปิดตัว Mercury 2 ซึ่งเป็นโมเดลภาษาใหญ่ (LLM) แบบกระจายที่ออกแบบมาเพื่อเร่งความเร็วในการทำงานให้กับงานให้เหตุผลในแอปพลิเคชัน AI เชิงพาณิชย์

ต่างจากโมเดล autoregressive แบบดั้งเดิมที่สร้างข้อความตามลำดับ Mercury 2 ใช้วิธีการปรับปรุงแบบขนาน ซึ่งสร้างโทเค็นหลายตัวพร้อมกันและรวมตัวกันภายในขั้นตอนน้อย ๆ ทำให้สามารถทำความเร็วได้เกิน 1,000 โทเค็นต่อวินาทีบน GPU NVIDIA Blackwell — ซึ่งประมาณสามเท่าของโมเดลคู่แข่งในช่วงราคาเดียวกัน

โมเดลนี้ได้รับการปรับให้เหมาะสมสำหรับการตอบสนองแบบเรียลไทม์ในเวิร์กโฟลว์ AI ที่ซับซ้อน ซึ่งความหน่วงจะสะสมในหลาย ๆ การเรียกใช้งาน การดึงข้อมูล และลูปของเอเจนต์ Mercury 2 รักษาคุณภาพการให้เหตุผลสูงในขณะที่ลดความหน่วง ทำให้ผู้พัฒนา ระบบ AI เสียง ค้นหา และแอปพลิเคชันแบบโต้ตอบอื่น ๆ สามารถทำงานได้ในระดับการให้เหตุผลโดยไม่ต้องรอเวลาที่เกิดจากการสร้างข้อความตามลำดับ นอกจากนี้ยังรองรับคุณสมบัติ เช่น การปรับแต่งการให้เหตุผล หน้าต่างบริบท 128K โทเค็น การส่งออก JSON ที่สอดคล้องกับ schema และการบูรณาการเครื่องมือในตัว เพื่อความยืดหยุ่นในการใช้งานในเชิงพาณิชย์

Mercury 2 ช่วยให้ AI ที่มีความหน่วงต่ำในเวิร์กโฟลว์การเขียนโค้ด เสียง และการค้นหา

รายงานเน้นตัวอย่างการใช้งานหลายกรณีที่ความเร็วในการให้เหตุผลเป็นสิ่งสำคัญ ในเวิร์กโฟลว์การเขียนโค้ดและการแก้ไข Mercury 2 ให้ผลลัพธ์การเติมข้อความอัตโนมัติและคำแนะนำการแก้ไขต่อไปอย่างรวดเร็ว ซึ่งผสานรวมกับกระบวนการคิดของนักพัฒนาได้อย่างไร้รอยต่อ ในเวิร์กโฟลว์ของเอเจนต์ โมเดลช่วยให้สามารถทำการเรียกใช้งานเพิ่มเติมโดยไม่เกินงบความหน่วง ซึ่งช่วยปรับปรุงคุณภาพและความลึกของการตัดสินใจอัตโนมัติ แอปพลิเคชันเสียงและแบบโต้ตอบก็ได้รับประโยชน์จากความสามารถในการสร้างคำตอบที่มีคุณภาพการให้เหตุผลในจังหวะเสียงธรรมชาติ ซึ่งช่วยยกระดับประสบการณ์ของผู้ใช้ในสถานการณ์สนทนาแบบเรียลไทม์ นอกจากนี้ Mercury 2 ยังสนับสนุนการค้นหาและดึงข้อมูลแบบหลายขั้นตอน ซึ่งช่วยให้สามารถสรุปข้อมูล จัดอันดับใหม่ และให้เหตุผลได้อย่างรวดเร็วโดยไม่ลดทอนเวลาตอบสนอง

ผู้ใช้งานรายแรก ๆ รายงานว่ามีการปรับปรุงในด้านความสามารถในการประมวลผลและประสบการณ์ของผู้ใช้ Mercury 2 ถูกกล่าวว่ามีความเร็วอย่างน้อยสองเท่าของ GPT-5.2 ในขณะที่ยังคงคุณภาพที่แข่งขันได้ โดยใช้งานในด้านการทำความสะอาดถอดความแบบเรียลไทม์ อินเทอร์เฟซมนุษย์-คอมพิวเตอร์แบบโต้ตอบ การปรับแต่งโฆษณาอัตโนมัติ และอวาตาร์ AI ที่รองรับเสียง

โมเดลนี้รองรับ API ของ OpenAI ทำให้สามารถบูรณาการเข้ากับสแต็กเดิมได้โดยไม่ต้องปรับเปลี่ยนมากนัก และ Inception Labs ยังให้การสนับสนุนสำหรับการประเมินผลในระดับองค์กร การตรวจสอบประสิทธิภาพ และคำแนะนำในการปรับใช้งานตามภาระงาน Mercury 2 เป็นก้าวสำคัญในด้าน LLM แบบกระจาย ซึ่งช่วยกำหนดสมดุลใหม่ระหว่างคุณภาพการให้เหตุผลและความหน่วงในสภาพแวดล้อม AI เชิงพาณิชย์

ดูต้นฉบับ
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • รางวัล
  • แสดงความคิดเห็น
  • repost
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด