扫码下载 APP
qrCode
更多下载方式
今天不再提醒

DeepSeek 新推 V3.2 与 Speciale,推理与效能直逼 GPT-5、Gemini 3

DeepSeek 于 12/2 新推出两款模型,分别是 DeepSeek-V3.2,以及专攻数学推理的 DeepSeek-V3.2-Speciale。官方表示,这两款模型延续当初的实验方向,目标是在推理能力、工具使用以及长思考能力上全面升级。DeepSeek 也强调,正式版 V3.2 在多项推理测试表现上已能与 GPT-5、Gemini-3 Pro 相提并论,而 Speciale 版本在数学与资讯竞赛的表现达到国际金牌水准。

实验版领路,正式版 V3.2 接棒登场

DeepSeek 在 9 月推出 V3.2-Exp 时,就把它定位为迈向下一代 AI 的实验平台。这次推出的正式版 DeepSeek-V3.2,命名不再加上「Exp」,象征功能更成熟。

官方说明,新版 V3.2 在多项推理测试上的表现与 GPT-5 和 Gemini-3 Pro 相近,并特别强调这是他们第一次把「思考模式」与「工具应用」紧密整合的模型,且同时支援思考模式与非思考模式。从下图可得知:

「DeepSeek-V3.2 透过基准测试表证明其工具使用能力已能与 GPT-5、Gemini-3 Pro 等顶尖模型并列。」

推理能力再升级,工具整合成最大亮点

DeepSeek 表示,V3.2 的大亮点,是能把推理过程与工具使用合并运作。换句话说,模型在思考某件事情的同时,也能调用搜寻引擎、计算机、程式码执行器等外部工具,让整体任务处理过程更完整、更自主,也更接近人类处理问题的方式。

Speciale 专注长推理,数学表现达金牌等级

除了标准版 V3.2,DeepSeek 同时推出另一个版本 DeepSeek-V3.2-Speciale。这个版本专门为高难度的数学推理与长时间思考设计。

官方的定位,是希望探索开源模型推理能力的极限,甚至看看模型本身能达到什么边界。从成绩来看,Speciale 在国际数学奥林匹亚 (IMO)、国际资讯奥林匹亚 (IOI) 等测验竞赛中达到金牌等级,推理表现则与 Google 最新的 Gemini-3 Pro 旗鼓相当。从下图可得知:

「DeepSeek-V3.2-Speciale 的推理能力已达到国际数学与资讯竞赛的金牌水准,在多项推理与程式竞赛基准测试中表现超越或匹敌 GPT-5、Gemini-3 Pro 与 Kimi-K2。」

新训练方式曝光,AI 代理能力再强化

在模型之外,DeepSeek 也公开一项新的研究成果,也就是他们已经建立新的方法来训练 AI 代理。这类代理能自己与外部环境互动、分析资料、做出判断,不需要人类持续给指令。

DeepSeek 强调,这是他们为了让 AI 执行效率更高、反应更快所设计的基础技术。

延续一月声量,研发节奏持续加速

DeepSeek 在今年 1 月因一款突破性模型引发全球关注。这次的 V3.2 系列,也是他们在那次成功后延续研究动能的最新成果。就在推出 V3.2 之前,DeepSeek 才在上周发布 DeepSeekMath-V2,一款专攻数学定理证明的开源模型,显示他们正在推理与数学领域持续加强。

技术报告出炉,V3.2 推理力接近 GPT-5 与 Kimi

DeepSeek 也同步发布技术报告《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》,指出 V3.2 在多项推理基准测试中与 GPT-5 和 Kimi-k2-thinking 表现相似。

这份报告也强调,中国本土开源模型在推理领域的竞争力仍然与国际顶尖模型保持在同一级距。

这篇文章 DeepSeek 新推 V3.2 与 Speciale,推理与效能直逼 GPT-5、Gemini 3 最早出现于 链新闻 ABMedia。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)