91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

DeepSeek開源3B小模型DeepSeek-OCR,以“光學(xué)壓縮”探索文本處理新路徑

   發(fā)布時(shí)間:2025-10-21 18:00 作者:陸辰風(fēng)

DeepSeek 團(tuán)隊(duì)近日開源了一款名為 DeepSeek-OCR 的 30 億參數(shù)模型,通過創(chuàng)新的“光學(xué)壓縮”技術(shù),在保持高準(zhǔn)確率的同時(shí)大幅降低文本處理所需的計(jì)算資源。該模型將視覺模態(tài)引入文本信息處理領(lǐng)域,為解決大語言模型(LLM)處理長文本時(shí)的計(jì)算瓶頸提供了新思路。

傳統(tǒng) LLM 在處理長文本時(shí)面臨計(jì)算復(fù)雜度平方級(jí)增長的難題——序列長度每增加一倍,算力消耗將呈四倍增長。DeepSeek-OCR 的突破性在于將文本轉(zhuǎn)換為圖像進(jìn)行壓縮處理:通過視覺模態(tài)的“光學(xué)壓縮”,模型用更少的視覺 Token 承載相同信息量。實(shí)驗(yàn)數(shù)據(jù)顯示,該技術(shù)可實(shí)現(xiàn) 7-20 倍的 Token 壓縮率,在 10 倍壓縮下 OCR 準(zhǔn)確率超過 97%,即使壓縮 20 倍仍能保持 60% 準(zhǔn)確率。

模型架構(gòu)由編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE 組成。DeepEncoder 采用 SAM-base(8000 萬參數(shù))與 CLIP-large(3 億參數(shù))的串聯(lián)結(jié)構(gòu),前者負(fù)責(zé)局部特征提取,后者進(jìn)行全局信息整合。中間嵌入的 16× 卷積壓縮器可將輸入圖像的 Token 數(shù)量大幅削減,例如 1024×1024 圖像經(jīng)處理后,進(jìn)入全局注意力層的 Token 從 4096 個(gè)降至數(shù)百個(gè)。這種設(shè)計(jì)使模型既能處理高分辨率輸入(支持 512×512 至 1280×1280 多分辨率),又有效控制了內(nèi)存開銷。

解碼器部分采用混合專家(MoE)架構(gòu),64 個(gè)專家中激活 6 個(gè),配合 2 個(gè)共享專家,實(shí)際激活參數(shù)約 5.7 億。這種設(shè)計(jì)使 30 億參數(shù)規(guī)模的模型兼具 300 億參數(shù)模型的表達(dá)能力與 50 億參數(shù)模型的推理效率。在 OmniDocBench 基準(zhǔn)測(cè)試中,使用 100 個(gè)視覺 Token 的 DeepSeek-OCR 表現(xiàn)優(yōu)于 GOT-OCR2.0(每頁 256 個(gè) Token),使用 800 個(gè) Token 時(shí)則超越 MinerU2.0(平均每頁超 6000 個(gè) Token)。

數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)從互聯(lián)網(wǎng)收集了 3000 萬頁多語言 PDF 文檔(中英文占 2500 萬頁),通過粗標(biāo)注(fitz 提?。┖途珮?biāo)注(PP-DocLayout 等模型生成)結(jié)合的方式構(gòu)建訓(xùn)練集。針對(duì)小語種數(shù)據(jù),創(chuàng)新采用“模型飛輪”機(jī)制:先用版面分析模型檢測(cè)文本區(qū)域,再用生成的數(shù)據(jù)訓(xùn)練 GOT-OCR2.0,最后用訓(xùn)練好的模型標(biāo)注更多數(shù)據(jù),形成數(shù)據(jù)生成閉環(huán)。模型還整合了 300 萬條 Word 文檔數(shù)據(jù)以提升公式識(shí)別能力,以及 2000 萬條場景 OCR 數(shù)據(jù)(中英文各半)增強(qiáng)自然圖像解析能力。

該模型不僅具備基礎(chǔ) OCR 功能,更實(shí)現(xiàn)了對(duì)復(fù)雜圖像的結(jié)構(gòu)化解析。通過統(tǒng)一提示詞,可自動(dòng)提取金融圖表數(shù)據(jù)、轉(zhuǎn)換化學(xué)結(jié)構(gòu)式為 SMILES 格式、解析幾何圖形并生成密集描述。在 STEM 領(lǐng)域(如化學(xué)、物理、數(shù)學(xué)),這種能力可顯著提升符號(hào)和圖形密集型場景的處理效率。

研究團(tuán)隊(duì)還提出了一個(gè)頗具前瞻性的設(shè)想:通過光學(xué)壓縮模擬人類遺忘機(jī)制。具體方案是將歷史對(duì)話內(nèi)容渲染為圖像,通過逐步壓縮圖像尺寸實(shí)現(xiàn)信息模糊化——近期內(nèi)容保持高分辨率,久遠(yuǎn)內(nèi)容自然淡化。這種設(shè)計(jì)理論上可支撐“無限上下文”處理,使模型在保持近期上下文高保真的同時(shí),降低歷史上下文的計(jì)算資源占用。

目前,DeepSeek-OCR 已開源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四檔模式,以及動(dòng)態(tài)分辨率的 Gundam 模式。在實(shí)際生產(chǎn)環(huán)境中,單塊 A100-40G 顯卡每日可生成超 20 萬頁訓(xùn)練數(shù)據(jù),20 個(gè)節(jié)點(diǎn)(160 塊 A100)的集群日處理量可達(dá) 3300 萬頁。團(tuán)隊(duì)強(qiáng)調(diào),當(dāng)前成果僅是起點(diǎn),后續(xù)將開展數(shù)字-光學(xué)文本交替預(yù)訓(xùn)練、“大海撈針”測(cè)試等系統(tǒng)性研究,以全面驗(yàn)證光學(xué)壓縮技術(shù)在上下文處理中的潛力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群