国产精品久久久久久久久久久不卡,国产精品成人一二区无码视频

DeepSeek開源3B小模型DeepSeek-OCR，以“光學(xué)壓縮”探索文本處理新路徑

發(fā)布時(shí)間：2025-10-21 18:00 來源：快訊作者：陸辰風(fēng)

DeepSeek 團(tuán)隊(duì)近日開源了一款名為 DeepSeek-OCR 的 30 億參數(shù)模型，通過創(chuàng)新的“光學(xué)壓縮”技術(shù)，在保持高準(zhǔn)確率的同時(shí)大幅降低文本處理所需的計(jì)算資源。該模型將視覺模態(tài)引入文本信息處理領(lǐng)域，為解決大語言模型（LLM）處理長文本時(shí)的計(jì)算瓶頸提供了新思路。

傳統(tǒng) LLM 在處理長文本時(shí)面臨計(jì)算復(fù)雜度平方級(jí)增長的難題——序列長度每增加一倍，算力消耗將呈四倍增長。DeepSeek-OCR 的突破性在于將文本轉(zhuǎn)換為圖像進(jìn)行壓縮處理：通過視覺模態(tài)的“光學(xué)壓縮”，模型用更少的視覺 Token 承載相同信息量。實(shí)驗(yàn)數(shù)據(jù)顯示，該技術(shù)可實(shí)現(xiàn) 7-20 倍的 Token 壓縮率，在 10 倍壓縮下 OCR 準(zhǔn)確率超過 97%，即使壓縮 20 倍仍能保持 60% 準(zhǔn)確率。

模型架構(gòu)由編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE 組成。DeepEncoder 采用 SAM-base（8000 萬參數(shù)）與 CLIP-large（3 億參數(shù)）的串聯(lián)結(jié)構(gòu)，前者負(fù)責(zé)局部特征提取，后者進(jìn)行全局信息整合。中間嵌入的 16× 卷積壓縮器可將輸入圖像的 Token 數(shù)量大幅削減，例如 1024×1024 圖像經(jīng)處理后，進(jìn)入全局注意力層的 Token 從 4096 個(gè)降至數(shù)百個(gè)。這種設(shè)計(jì)使模型既能處理高分辨率輸入（支持 512×512 至 1280×1280 多分辨率），又有效控制了內(nèi)存開銷。

解碼器部分采用混合專家（MoE）架構(gòu)，64 個(gè)專家中激活 6 個(gè)，配合 2 個(gè)共享專家，實(shí)際激活參數(shù)約 5.7 億。這種設(shè)計(jì)使 30 億參數(shù)規(guī)模的模型兼具 300 億參數(shù)模型的表達(dá)能力與 50 億參數(shù)模型的推理效率。在 OmniDocBench 基準(zhǔn)測(cè)試中，使用 100 個(gè)視覺 Token 的 DeepSeek-OCR 表現(xiàn)優(yōu)于 GOT-OCR2.0（每頁 256 個(gè) Token），使用 800 個(gè) Token 時(shí)則超越 MinerU2.0（平均每頁超 6000 個(gè) Token）。

數(shù)據(jù)構(gòu)建方面，團(tuán)隊(duì)從互聯(lián)網(wǎng)收集了 3000 萬頁多語言 PDF 文檔（中英文占 2500 萬頁），通過粗標(biāo)注（fitz 提?。┖途珮?biāo)注（PP-DocLayout 等模型生成）結(jié)合的方式構(gòu)建訓(xùn)練集。針對(duì)小語種數(shù)據(jù)，創(chuàng)新采用“模型飛輪”機(jī)制：先用版面分析模型檢測(cè)文本區(qū)域，再用生成的數(shù)據(jù)訓(xùn)練 GOT-OCR2.0，最后用訓(xùn)練好的模型標(biāo)注更多數(shù)據(jù)，形成數(shù)據(jù)生成閉環(huán)。模型還整合了 300 萬條 Word 文檔數(shù)據(jù)以提升公式識(shí)別能力，以及 2000 萬條場景 OCR 數(shù)據(jù)（中英文各半）增強(qiáng)自然圖像解析能力。

該模型不僅具備基礎(chǔ) OCR 功能，更實(shí)現(xiàn)了對(duì)復(fù)雜圖像的結(jié)構(gòu)化解析。通過統(tǒng)一提示詞，可自動(dòng)提取金融圖表數(shù)據(jù)、轉(zhuǎn)換化學(xué)結(jié)構(gòu)式為 SMILES 格式、解析幾何圖形并生成密集描述。在 STEM 領(lǐng)域（如化學(xué)、物理、數(shù)學(xué)），這種能力可顯著提升符號(hào)和圖形密集型場景的處理效率。

研究團(tuán)隊(duì)還提出了一個(gè)頗具前瞻性的設(shè)想：通過光學(xué)壓縮模擬人類遺忘機(jī)制。具體方案是將歷史對(duì)話內(nèi)容渲染為圖像，通過逐步壓縮圖像尺寸實(shí)現(xiàn)信息模糊化——近期內(nèi)容保持高分辨率，久遠(yuǎn)內(nèi)容自然淡化。這種設(shè)計(jì)理論上可支撐“無限上下文”處理，使模型在保持近期上下文高保真的同時(shí)，降低歷史上下文的計(jì)算資源占用。

目前，DeepSeek-OCR 已開源原生分辨率的 Tiny（64 Token）、Small、Base、Large 四檔模式，以及動(dòng)態(tài)分辨率的 Gundam 模式。在實(shí)際生產(chǎn)環(huán)境中，單塊 A100-40G 顯卡每日可生成超 20 萬頁訓(xùn)練數(shù)據(jù)，20 個(gè)節(jié)點(diǎn)（160 塊 A100）的集群日處理量可達(dá) 3300 萬頁。團(tuán)隊(duì)強(qiáng)調(diào)，當(dāng)前成果僅是起點(diǎn)，后續(xù)將開展數(shù)字-光學(xué)文本交替預(yù)訓(xùn)練、“大海撈針”測(cè)試等系統(tǒng)性研究，以全面驗(yàn)證光學(xué)壓縮技術(shù)在上下文處理中的潛力。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

DeepSeek開源3B小模型DeepSeek-OCR，以“光學(xué)壓縮”探索文本處理新路徑

DeepSeek開源3B小模型DeepSeek-OCR，以“光學(xué)壓縮”探索文本處理新路徑