DeepSeek近日正式推出V4系列大模型,包含Pro與Flash兩個版本,分別對應官方網頁端專家模式與APP快速模式。此次升級在模型架構、長上下文處理能力及價格策略上實現突破,同時宣布與華為昇騰達成算力合作,引發行業廣泛關注。
技術參數方面,V4-Pro模型參數達1.6萬億,激活量490億,預訓練數據規模33萬億;Flash版本參數2840億,激活量130億,預訓練數據32萬億。兩個版本均支持100萬tokens上下文窗口,提供非思考與思考雙模式選擇。DeepSeek強調,通過全新注意力機制與DSA稀疏注意力技術,V4系列在保持全球領先長上下文能力的同時,將計算資源需求降低40%以上。
價格體系呈現顯著差異化:V4-Pro輸入定價每百萬tokens 1元,輸出12元;Flash版本輸入0.2元,輸出2元。這種梯度定價策略被網友評價為"普惠型創新"。值得注意的是,受制于高端算力供應,Pro版本當前服務吞吐量受限,預計昇騰950超節點下半年批量上市后,其成本將下降60%以上。
性能評測顯示,V4-Pro在Agentic Coding任務中達到開源模型最優水平,成為DeepSeek內部開發主力工具。世界知識測試中,該模型超越所有開源競品,僅落后于Gemini-Pro-3.1;數學與競賽編程領域則比肩GPT-5.4等頂級閉源模型。推理能力方面,Pro-Max模式在標準基準測試中優于GPT-5.2,但與最新閉源模型存在3-6個月代差。
Flash版本在保持90%核心性能的同時,將響應速度提升3倍,特別適合實時交互場景。在簡單Agent任務中,其表現與Pro版本持平,但復雜任務處理能力存在15%-20%差距。兩個版本均已同步上線DeepSeek API,兼容OpenAI與Anthropic接口標準。
技術白皮書披露,V4系列在架構層面實現三大創新:混合注意力機制使長文本處理效率提升2.3倍;流形約束超連接技術解決深層網絡信號衰減問題;Muon優化器將訓練收斂速度加快40%。但研究團隊也承認,為追求極致效率,當前架構包含較多經驗性組件,在復雜指令遵循與極端摘要任務上仍有改進空間。
此次發布前夕,DeepSeek被曝啟動首輪外部融資,計劃以超100億美元估值募集3億美元。知情人士透露,融資將主要用于算力基礎設施擴建與頂尖人才招募。此前堅持獨立發展的DeepSeek,此次戰略調整被解讀為應對多模態競爭的必要舉措——目前其模型仍局限于文本領域,而主要競品均已實現圖文音視頻全模態覆蓋。























