突發! DeepSeek V4 正式發布

大模型這週瘋狂的更新沒有結束,最重磅的DeepSeek V4 突然發布了

剛剛,DeepSeek 正式推出V4 系列預覽版,包含DeepSeek-V4-Pro(1.6T 總參數/ 49B 激活)與DeepSeek-V4-Flash(284B 總參數/ 13B 激活)兩款模型,均支援100 萬Token 超長上下文。

架構層面,V4 實現三項關鍵突破。

混合注意力機制(CSA+HCA)將百萬Token 場景下的推理FLOPs 降至V3.2 的27%,KV Cache 僅需10%;

流形約束超連接(mHC)解決了超大規模MoE 的訓練不穩定性問題;其三,引入Muon 優化器加速收斂。模型基於32T+ 高品質Token 預訓練,並採用”領域專家培養+ 統一模型整合”的兩階段後訓練策略。

效能方面,V4-Pro-Max 模式(最大推理檔位)在多個基準上刷新開源模型紀錄。 LiveCodeBench 達到93.5%,Codeforces 評分3206(超越Gemini-3.1-Pro 與Claude Opus-4.6);

數學推理IMO-AnswerBench 89.8%、HMMT 2026 達95.2%;軟體工程SWE-bench Verified 80.6%;百萬Token 長上下文測試MRCR 83.5%。

模型同時提供Non-Think、Think High、Think Max 三檔推理模式,兼顧反應速度與推理深度。

DeepSeek 官方表示,V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」,在编程基准上达到顶级水平,并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距。

V4-Flash-Max 則在給予充足思考預算時,可實現與Pro 版本相當的推理表現。

目前,V4 系列模型權重已在Hugging Face 和ModelScope 上架,技術報告同步公開。

APPSO 馬上會帶來更詳細的解讀,敬請留意。

模型呼叫與參數調整方法請參考API 文件:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

DeepSeek-V4 模型開源連結:https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

分享你的喜愛