全球人工智能領域迎來重要進展——DeepSeek V4大模型正式上線預覽版并同步開源,其核心突破在于通過技術重構將長上下文處理成本大幅降低,同時以1.6萬億參數規模刷新國產開源模型紀錄。此次發布的V4系列包含DeepSeek-V4-Pro和DeepSeek-V4-Flash兩款模型,均標配100萬token上下文窗口,標志著長文本處理能力從高端功能轉變為行業基礎配置。
在技術架構層面,V4系列通過混合專家(MoE)模型實現參數規模與推理效率的平衡。V4-Pro總參數達1.6萬億,激活參數490億;V4-Flash總參數2840億,激活參數130億。這種設計使得單個token實際調用的算力減少,但知識儲備量顯著提升。相較于前代V3.2模型,V4-Pro的參數量增長2.4倍,而激活參數增幅不足33%,體現了更高效的稀疏化門控網絡設計。
長上下文處理能力是本次升級的核心亮點。行業此前主流上下文窗口為12.8萬至25.6萬token,谷歌Gemini模型曾以100萬token窗口保持領先。V4系列將該能力作為全系標配,配合優化的注意力機制,使單token推理計算量較V3.2降低73%,KV緩存占用減少90%。這種突破使得處理百萬級文本的成本大幅下降,為智能體(Agent)執行復雜任務提供技術支撐。
模型性能方面,V4-Pro-Max在HLE測試中取得37.7分,Apex Shortlist評分達90.2%,超越OpenAI、Anthropic等海外閉源模型。在編程任務Codeforces中,其Rating達到3206分,顯示強大的邏輯推理能力。智能體能力測試中,V4在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)等工具調用場景表現突出,官方定位其使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式。
定價策略凸顯性價比優勢。V4-Flash以每百萬token輸入1元、輸出2元的價格成為行業最低,緩存命中后輸入成本降至0.2元。V4-Pro定價12元/24元(輸入/輸出),雖受高端算力產能限制,但單位token性價比仍優于Qwen3.6-Max、GPT-5.4 Pro等旗艦模型。技術文檔透露,隨著華為昇騰950芯片下半年批量部署,Pro版本價格有望大幅下調。
技術文檔詳細披露了注意力機制的創新設計。V4采用壓縮稀疏注意力(CSA)與重壓縮注意力(HCA)交替使用的方案:CSA每4個token合并為摘要并篩選top-k相關項,HCA每128個token合并但保留稠密計算。配合滑動窗口處理局部依賴,形成"粗細結合、稀稠協同"的混合架構。這種設計使100萬token上下文的推理成本僅相當于傳統架構處理10萬token的水平。
后訓練方法引入"分化再統一"策略:先針對數學、代碼、Agent等方向訓練專家模型,再通過在策略蒸餾技術將多個專家能力整合到統一模型。為解決多教師模型加載的顯存壓力,開發團隊將教師權重卸載至分布式存儲,僅緩存最后一層隱藏狀態,確保訓練效率。智能體訓練方面,DSec沙箱平臺可同時管理數十萬個訓練實例,支持工具調用格式從JSON向XML的優化切換,減少轉義錯誤并保留跨輪次推理痕跡。
硬件適配層面,V4在技術報告中首次將華為昇騰NPU與英偉達GPU并列作為驗證平臺。昇騰CANN團隊確認將于發布當日進行V4模型的首發演示,寒武紀也完成基于vLLM框架的Day 0適配并開源代碼。值得注意的是,V4的MoE專家權重采用FP4精度,與昇騰950PR芯片原生支持的精度格式完全匹配,為后續性能優化奠定基礎。






















