91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

DeepSeek開源DeepSeek-OCR:用視覺壓縮新招,為長(zhǎng)文本處理降本增效

   發(fā)布時(shí)間:2025-10-21 18:01 作者:江紫萱

近日,人工智能領(lǐng)域迎來一項(xiàng)創(chuàng)新成果——DeepSeek團(tuán)隊(duì)推出名為DeepSeek-OCR的模型,通過“上下文光學(xué)壓縮”技術(shù),為大語(yǔ)言模型處理長(zhǎng)文檔提供了高效解決方案。該模型突破了傳統(tǒng)方法對(duì)算力和內(nèi)存的高依賴,為海量文檔處理場(chǎng)景開辟了新路徑。

當(dāng)前,大語(yǔ)言模型在處理數(shù)千字甚至更長(zhǎng)的文本時(shí),計(jì)算量呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致算力成本飆升,成為制約其應(yīng)用的關(guān)鍵瓶頸。DeepSeek團(tuán)隊(duì)從人類視覺系統(tǒng)獲取靈感:人類閱讀文檔時(shí),視覺系統(tǒng)能快速捕捉頁(yè)面布局、段落結(jié)構(gòu)等關(guān)鍵信息,并進(jìn)行高效壓縮?;诖?,團(tuán)隊(duì)提出“視覺預(yù)處理”思路——將文本渲染為圖像,通過視覺模型壓縮后,再交由語(yǔ)言模型處理,從而大幅減少輸入token數(shù)量。

DeepSeek-OCR的核心架構(gòu)由兩部分組成:DeepEncoder(深度編碼器)和基于混合專家模型(MoE)的解碼器。其中,DeepEncoder融合了SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)兩種視覺模型架構(gòu)。SAM擅長(zhǎng)處理局部細(xì)節(jié),通過窗口注意力機(jī)制捕捉分散的視覺特征;CLIP則依賴全局注意力機(jī)制,提取整體知識(shí)信息。兩者通過16倍下采樣的卷積模塊銜接,形成“先局部后全局”的處理流程,有效解決了高分辨率圖像處理中的內(nèi)存溢出和token爆炸問題。

解碼端采用DeepSeek自研的30億參數(shù)混合專家模型,激活參數(shù)為5.7億。該模型通過動(dòng)態(tài)分配任務(wù)至不同專家網(wǎng)絡(luò),在保持規(guī)??煽氐耐瑫r(shí),實(shí)現(xiàn)了強(qiáng)大的文本還原能力。實(shí)驗(yàn)表明,在處理600至1,300個(gè)文本token的英文文檔時(shí),DeepSeek-OCR僅需64或100個(gè)視覺token即可完成處理。當(dāng)壓縮比低于10倍時(shí),OCR解碼精度達(dá)97%以上;即使壓縮比達(dá)20倍,準(zhǔn)確率仍維持在60%左右。

在OmniDocBench等實(shí)際應(yīng)用場(chǎng)景測(cè)試中,DeepSeek-OCR的表現(xiàn)優(yōu)于同類模型。例如,相較于GOT-OCR2.0(每頁(yè)256個(gè)token)和MinerU2.0(每頁(yè)超6000個(gè)token),DeepSeek-OCR以更少的視覺token達(dá)到了業(yè)界先進(jìn)水平。模型通過訓(xùn)練包含圖表、化學(xué)分子式、幾何圖形等多樣化數(shù)據(jù),具備了深度解析能力。例如,它能將報(bào)告中的圖表轉(zhuǎn)換為表格數(shù)據(jù),將化學(xué)文獻(xiàn)中的分子式輸出為SMILES格式,甚至解析幾何圖形中的線段關(guān)系,為金融、科研、教育等領(lǐng)域提供了新的工具。

目前,DeepSeek已開源該模型的核心代碼和權(quán)重。據(jù)技術(shù)報(bào)告披露,在生產(chǎn)環(huán)境中,單張A100-40G GPU每日可處理超20萬(wàn)頁(yè)文檔數(shù)據(jù)。不過,模型仍存在局限:當(dāng)壓縮比超過10倍時(shí),性能會(huì)因信息損失或圖像分辨率降低而下降;在處理極端復(fù)雜版面時(shí),解析能力有待提升。OCR任務(wù)與多輪對(duì)話理解存在本質(zhì)差異,前者側(cè)重感知和解碼,后者涉及推理、記憶檢索等復(fù)雜認(rèn)知過程。技術(shù)報(bào)告指出,未來計(jì)劃開展數(shù)字文本與光學(xué)文本交錯(cuò)的預(yù)訓(xùn)練實(shí)驗(yàn),并評(píng)估長(zhǎng)上下文檢索的準(zhǔn)確性。

盡管如此,DeepSeek-OCR為視覺與語(yǔ)言模態(tài)的融合提供了新思路。傳統(tǒng)方法通常將兩者作為獨(dú)立輸入處理,而該模型表明,視覺與語(yǔ)言可互為信息壓縮和解壓的媒介?;谶@一范式,未來或可探索將多輪對(duì)話歷史渲染為圖像,以更低成本管理更長(zhǎng)的對(duì)話;或?qū)⒑A恐R(shí)庫(kù)壓縮為視覺索引,提升知識(shí)檢索效率。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群