DeepSeekがV4-ProとV4-Flashを発表:100万トークンコンテキストのオープンソースモデル、SWE Verifiedで80.6点
なぜ重要か
DeepSeekは2026年4月24日、V4-Pro(1.6兆/490億アクティブパラメータ)とV4-Flash(2840億/130億アクティブパラメータ)を発表しました。100万トークンコンテキストに対応する2つのオープンソースモデルです。V4-ProはSWE Verifiedで80.6点を達成し、Opus 4.6に迫る性能を示しながら、メモリ消費を大幅に削減しています。
DeepSeekは2026年4月24日(木曜日)、V4シリーズのプレビュー版として、2つのオープンウェイトモデルを発表しました。V4-Pro(総パラメータ1.6兆、アクティブパラメータ490億)とV4-Flash(総パラメータ2840億、アクティブパラメータ130億)です。両モデルとも、すべての公式サービスでデフォルトとして100万トークンコンテキストをサポートしています。
このリリースは、フロンティアモデル間の競争が純粋なベンチマーク数値から長いコンテキストの効率性とエージェントワークフローの領域へと移行している時期に登場しました。DeepSeekはHugging Face Hubにモデルの重みと技術レポートを公開しています。
新しいV4アーキテクチャは何をもたらすか?
核心的な革新はハイブリッドアテンションメカニズムで、2つの補完的な技術を組み合わせています。1つ目は**CSA(圧縮スパースアテンション)**で、学習済みの位置アプローチを使って4トークンごとに1つのKVレコードに圧縮し、FP4「ライトニングインデクサー」がクエリごとに最も関連性の高い圧縮ブロックのtop-kを選択します。
2つ目は128倍の圧縮率を持つ**HCA(高圧縮アテンション)**で、高度に圧縮されたブロック上でスパース選択なしに密なMQA(マルチクエリアテンション)を使用します。どちらの技術も最新のトークンに対してフルアテンションのスライディングウィンドウを維持します。
結果として、**KVキャッシュは標準的なGQA-8ベースラインのわずか2%**となります。100万トークンコンテキストでは、V4-ProはV3.2の27%のFLOPsを消費し、V4-Flashはわずか10%です。
実際のタスクでの性能は?
実際のGitHubバグを自律的に解決する能力を測るSWE Verifiedベンチマークで、V4-Pro-Maxは80.6%を達成し、AnthropicのOpus 4.6-Max(80.8%)とほぼ同等です。ツールのオーケストレーションを測るToolathlonでは、V4-Proが51.8点でKimi K2.6(50.0点)を上回り1位となっています。
PyTorch、CUDA、Rust、C++から30問の内部ベンチマークでは、V4-Pro-Maxが67%のタスクを解決し、Opus 4.5(70%)にわずかに及ばないものの、Sonnet 4.5(47%)を大きく上回っています。91人のDeepSeekエンジニアを対象とした社内調査では、52%がメインのコーディングモデルを変える意向を示し、さらに39%が「はい」に傾いています。
エージェントポストトレーニングの仕組みは?
アーキテクチャの変更に加え、DeepSeekはインターリーブシンキングを導入しました——複数ステップのツールコールフローでユーザーメッセージの境界を超えて推論チェーンを維持します。ツールなしではモデルは従来通りに動作し、新しいメッセージごとに推論をクリアします。
ツールコールには特別な|DSML|トークンを持つXMLツールコール形式が採用されています。例:
|DSML|
<tool_call>
<function_name>search</function_name>
<parameters>
<param name="query" string="true">ザグレブの天気</param>
</parameters>
</tool_call>
この方式の利点は、ネストされた引用符のエスケープエラーを減らし、文字列パラメータと構造化パラメータを分離することにあります。これはJSONスキーマの典型的な問題点です。
DSECサンドボックスとは何か?
エージェント強化学習のために、DeepSeekはRustベースのインフラストラクチャDSec(DeepSeek Elastic Compute)を構築しました。これは4つの実行レイヤーをサポートします:関数呼び出し、コンテナ、マイクロVM(Firecracker)、フルVM(QEMU)。システムは数十万の並列サンドボックスにスケールし、「プリエンプションセーフリプレイ」をサポートします——ツールコールを再実行せずにトレーニングを再開できます。
このインフラストラクチャが、V4が合成トレースではなく実際のツール環境でトレーニングできる理由であり、ToolathlonとMCPAtlasベンチマークでの強さに如実に表れています。
移行期限はいつか?
DeepSeekは同時に、旧エンドポイント**deepseek-chatとdeepseek-reasonerが2026年7月24日UTC15:59に完全に廃止される**ことを発表しました。DeepSeek APIを使用している開発チームには3ヶ月の移行期間があります。
新バージョンは3つの推論モード(非シンキング、シンキングハイ、シンキングマックス)で利用可能で、MoEエキスパートにFP4量化、残りにFP8量化を使用して公開されており、メモリ要件をさらに削減しています。
モデルをセルフホストしたい開発チームには、V4-Flashがより現実的な選択肢です——130億のアクティブパラメータにより、V3.2よりも標準的なGPUハードウェアで推論を実行できます。
この記事はAIにより一次情報源から生成されました。