突發！ DeepSeek V4 正式發布

大模型這週瘋狂的更新沒有結束，最重磅的DeepSeek V4 突然發布了

剛剛，DeepSeek 正式推出V4 系列預覽版，包含DeepSeek-V4-Pro（1.6T 總參數/ 49B 激活）與DeepSeek-V4-Flash（284B 總參數/ 13B 激活）兩款模型，均支援100 萬Token 超長上下文。

架構層面，V4 實現三項關鍵突破。

混合注意力機制（CSA+HCA）將百萬Token 場景下的推理FLOPs 降至V3.2 的27%，KV Cache 僅需10%；

流形約束超連接（mHC）解決了超大規模MoE 的訓練不穩定性問題；其三，引入Muon 優化器加速收斂。模型基於32T+ 高品質Token 預訓練，並採用”領域專家培養+ 統一模型整合”的兩階段後訓練策略。

效能方面，V4-Pro-Max 模式（最大推理檔位）在多個基準上刷新開源模型紀錄。 LiveCodeBench 達到93.5%，Codeforces 評分3206（超越Gemini-3.1-Pro 與Claude Opus-4.6）；

數學推理IMO-AnswerBench 89.8%、HMMT 2026 達95.2%；軟體工程SWE-bench Verified 80.6%；百萬Token 長上下文測試MRCR 83.5%。

模型同時提供Non-Think、Think High、Think Max 三檔推理模式，兼顧反應速度與推理深度。

DeepSeek 官方表示，V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」，在编程基准上达到顶级水平，并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距。

V4-Flash-Max 則在給予充足思考預算時，可實現與Pro 版本相當的推理表現。

目前，V4 系列模型權重已在Hugging Face 和ModelScope 上架，技術報告同步公開。

APPSO 馬上會帶來更詳細的解讀，敬請留意。

模型呼叫與參數調整方法請參考API 文件：https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

DeepSeek-V4 模型開源連結：https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技術報告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

相關貼文：