DeepSeek發布多模態模型技術報告：創新框架破解空間參照難題-科技-智快網

DeepSeek發布多模態模型技術報告：創新框架破解空間參照難題

發布時間：2026-05-01 00:31 來源：快訊作者：顧雨柔

在人工智能領域，多模態大語言模型（MLLMs）的發展備受矚目。然而，這類模型在處理空間參照任務時，始終面臨著一道難以跨越的障礙。近日，DeepSeek團隊在GitHub平臺正式發布其多模態大模型，并同步公開技術報告，提出了一種創新性的解決方案——基于“視覺原語”的推理框架，有望打破這一瓶頸。

當前，多模態大語言模型雖已取得顯著進展，但主流的鏈式思維（CoT）推理范式仍局限于語言學范疇。為提升模型對視覺細節的識別能力，現有研究多聚焦于高分辨率圖像裁剪等技術手段，試圖彌合“感知鴻溝”。然而，DeepSeek團隊指出，這一思路忽視了更為根本的限制——參照鴻溝。自然語言在描述復雜空間布局時，往往存在模糊性，難以提供精確指引。當模型需要執行涉及嚴謹空間參照的任務時，這種語言表達的局限性會導致推理鏈條斷裂，出現邏輯崩潰。

針對這一難題，DeepSeek團隊提出了“基于視覺原語的思考”（Thinking with Visual Primitives）框架。該框架將點、邊界框等空間標記從單純的視覺輸入元素，提升為推理過程中的“基本思維單元”。通過將這些視覺原語直接嵌入模型的思考鏈路，模型在推理過程中具備了“指代”能力，能夠將抽象的認知軌跡錨定到圖像的具體物理坐標上，從而實現對空間關系的精確推演。

技術報告顯示，該框架采用了高度優化的模型架構，具備極高的視覺標記效率。盡管模型規模緊湊且圖像標記預算顯著較低，DeepSeek的多模態模型在具有挑戰性的計數和空間推理基準測試上，仍能與GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型相媲美。這一成果為開發更高效、更具可擴展性的System-2類多模態智能指明了方向。

值得一提的是，DeepSeek此前已上線“識圖模式”。該模式與“快速模式”“專家模式”并列，并非簡單的OCR文字識別，而是真正具備了多模態識別能力。這一功能的推出，進一步驗證了DeepSeek在多模態領域的深厚積累和技術實力。

更多>同類內容