智快網 - 新科技與新能源行業網絡媒體

DeepSeek發布多模態模型技術報告:創新框架破解空間參照難題

   發布時間:2026-05-01 00:31 作者:顧雨柔

在人工智能領域,多模態大語言模型(MLLMs)的發展備受矚目。然而,這類模型在處理空間參照任務時,始終面臨著一道難以跨越的障礙。近日,DeepSeek團隊在GitHub平臺正式發布其多模態大模型,并同步公開技術報告,提出了一種創新性的解決方案——基于“視覺原語”的推理框架,有望打破這一瓶頸。

當前,多模態大語言模型雖已取得顯著進展,但主流的鏈式思維(CoT)推理范式仍局限于語言學范疇。為提升模型對視覺細節的識別能力,現有研究多聚焦于高分辨率圖像裁剪等技術手段,試圖彌合“感知鴻溝”。然而,DeepSeek團隊指出,這一思路忽視了更為根本的限制——參照鴻溝。自然語言在描述復雜空間布局時,往往存在模糊性,難以提供精確指引。當模型需要執行涉及嚴謹空間參照的任務時,這種語言表達的局限性會導致推理鏈條斷裂,出現邏輯崩潰。

針對這一難題,DeepSeek團隊提出了“基于視覺原語的思考”(Thinking with Visual Primitives)框架。該框架將點、邊界框等空間標記從單純的視覺輸入元素,提升為推理過程中的“基本思維單元”。通過將這些視覺原語直接嵌入模型的思考鏈路,模型在推理過程中具備了“指代”能力,能夠將抽象的認知軌跡錨定到圖像的具體物理坐標上,從而實現對空間關系的精確推演。

技術報告顯示,該框架采用了高度優化的模型架構,具備極高的視覺標記效率。盡管模型規模緊湊且圖像標記預算顯著較低,DeepSeek的多模態模型在具有挑戰性的計數和空間推理基準測試上,仍能與GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型相媲美。這一成果為開發更高效、更具可擴展性的System-2類多模態智能指明了方向。

值得一提的是,DeepSeek此前已上線“識圖模式”。該模式與“快速模式”“專家模式”并列,并非簡單的OCR文字識別,而是真正具備了多模態識別能力。這一功能的推出,進一步驗證了DeepSeek在多模態領域的深厚積累和技術實力。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群