DeepSeekの創業者である梁文鋒が、社内でのコミュニケーションの中で自ら、新世代のフラッグシップモデルV4は4月下旬に正式にリリースされると口頭で確認した。漏えいされた仕様によれば、総パラメータ数は1兆に迫り、12.8万トークン級のコンテキストをサポートし、さらに完全に華為の昇騰チップで実行されるとされており、中国のAIがNVIDIAへの依存から脱するうえでの重要な一歩だと見なされている。
(前情提要:DeepSeek V4はNVIDIAを拒否し、華為に!アリ、バイトダンス、テンセントは昇騰950PRチップを買い漁る)
(背景補足:DeepSeekが「エキスパートモード」と「ビジュアルモード」を開始。V4正式リリース前の最後のウォームアップ?)
『新浪財経』が伝えるところによれば、事情に詳しい関係者の消息として、DeepSeekの創業者である梁文鋒は、新世代のフラッグシップ大規模モデルDeepSeek V4は4月下旬に正式に登場すると明かしている。公式はまだ確定日を公表していないものの、開発者コミュニティは先にウォームアップのサインを感じ取っている。V4-LiteのバリアントはAPIノードでのテスト中で、推論速度は前世代より30%向上し、128K tokensのコンテキスト想起率は94%に達している。
現時点で出回っている未公式の確認情報によると、V4のアーキテクチャはMixture-of-Experts(MoE)設計を踏襲している。総パラメータ数は約1兆だが、各トークンで実際に有効化される引数は約370億にとどまり、計算効率の面ではDeepSeekが一貫してきた「精密計算者」スタイルを維持している。
コンテキストウィンドウの部分について:V4は新しいEngramモジュールにより、100万トークン級の超長コンテキストをサポートできる見込みがあり、現在のトップモデルと競り合う。Engramの中核コンセプトは条件付き記憶検索であり、モデルが系列長に比例して線形に膨張するのではなく、O(1)の複雑度で知識にアクセスできるようにすることだ。
能力面では、漏えいされたベンチマークテストでHumanEvalが90%、SWE-bench Verifiedが80%超であることが示されており、もしデータが事実なら、既存の主流フラッグシップモデルに迫る。モダリティ面では、V4はテキスト、画像、動画の入力をネイティブにサポートし、価格は約$0.30/MTok(入力)で、DeepSeekの低価格戦略を引き継ぐ。
技術仕様のほかに、V4で最も注目されているのはハードウェア戦略の徹底した転換点だ。公式では、モデル全体が華為の昇騰950 PRチップ上で完全に実行され、いかなるNVIDIAのGPUにも依存しないとしている。
この判断の影響はDeepSeek自身をはるかに超える。アリババ、バイトダンス、テンセントはすでに華為の次世代チップを大量に調達している。もしV4が昇騰がトップレベルのフラッグシップモデルの学習および推論需要を支えられることを検証できれば、中国のAI産業チェーンにおけるチップの国産化で、これまでで最も説得力のある実戦事例になるだろう。
この文脈では、米国によるNVIDIAへの輸出規制の措置が、むしろ中国の自前のエコシステムが成熟することを加速する触媒になり得る。