国产自拍视频一区在线观看,国产强被迫伦姧在线观看无码

DeepSeek開源DeepSeek-OCR：用視覺壓縮新招，為長(zhǎng)文本處理降本增效

發(fā)布時(shí)間：2025-10-21 18:01 來源：快訊作者：江紫萱

近日，人工智能領(lǐng)域迎來一項(xiàng)創(chuàng)新成果——DeepSeek團(tuán)隊(duì)推出名為DeepSeek-OCR的模型，通過“上下文光學(xué)壓縮”技術(shù)，為大語(yǔ)言模型處理長(zhǎng)文檔提供了高效解決方案。該模型突破了傳統(tǒng)方法對(duì)算力和內(nèi)存的高依賴，為海量文檔處理場(chǎng)景開辟了新路徑。

當(dāng)前，大語(yǔ)言模型在處理數(shù)千字甚至更長(zhǎng)的文本時(shí)，計(jì)算量呈指數(shù)級(jí)增長(zhǎng)，導(dǎo)致算力成本飆升，成為制約其應(yīng)用的關(guān)鍵瓶頸。DeepSeek團(tuán)隊(duì)從人類視覺系統(tǒng)獲取靈感：人類閱讀文檔時(shí)，視覺系統(tǒng)能快速捕捉頁(yè)面布局、段落結(jié)構(gòu)等關(guān)鍵信息，并進(jìn)行高效壓縮?；诖?，團(tuán)隊(duì)提出“視覺預(yù)處理”思路——將文本渲染為圖像，通過視覺模型壓縮后，再交由語(yǔ)言模型處理，從而大幅減少輸入token數(shù)量。

DeepSeek-OCR的核心架構(gòu)由兩部分組成：DeepEncoder（深度編碼器）和基于混合專家模型（MoE）的解碼器。其中，DeepEncoder融合了SAM（Segment Anything Model）和CLIP（Contrastive Language–Image Pre-training）兩種視覺模型架構(gòu)。SAM擅長(zhǎng)處理局部細(xì)節(jié)，通過窗口注意力機(jī)制捕捉分散的視覺特征；CLIP則依賴全局注意力機(jī)制，提取整體知識(shí)信息。兩者通過16倍下采樣的卷積模塊銜接，形成“先局部后全局”的處理流程，有效解決了高分辨率圖像處理中的內(nèi)存溢出和token爆炸問題。

解碼端采用DeepSeek自研的30億參數(shù)混合專家模型，激活參數(shù)為5.7億。該模型通過動(dòng)態(tài)分配任務(wù)至不同專家網(wǎng)絡(luò)，在保持規(guī)?？煽氐耐瑫r(shí)，實(shí)現(xiàn)了強(qiáng)大的文本還原能力。實(shí)驗(yàn)表明，在處理600至1,300個(gè)文本token的英文文檔時(shí)，DeepSeek-OCR僅需64或100個(gè)視覺token即可完成處理。當(dāng)壓縮比低于10倍時(shí)，OCR解碼精度達(dá)97%以上；即使壓縮比達(dá)20倍，準(zhǔn)確率仍維持在60%左右。

在OmniDocBench等實(shí)際應(yīng)用場(chǎng)景測(cè)試中，DeepSeek-OCR的表現(xiàn)優(yōu)于同類模型。例如，相較于GOT-OCR2.0（每頁(yè)256個(gè)token）和MinerU2.0（每頁(yè)超6000個(gè)token），DeepSeek-OCR以更少的視覺token達(dá)到了業(yè)界先進(jìn)水平。模型通過訓(xùn)練包含圖表、化學(xué)分子式、幾何圖形等多樣化數(shù)據(jù)，具備了深度解析能力。例如，它能將報(bào)告中的圖表轉(zhuǎn)換為表格數(shù)據(jù)，將化學(xué)文獻(xiàn)中的分子式輸出為SMILES格式，甚至解析幾何圖形中的線段關(guān)系，為金融、科研、教育等領(lǐng)域提供了新的工具。

目前，DeepSeek已開源該模型的核心代碼和權(quán)重。據(jù)技術(shù)報(bào)告披露，在生產(chǎn)環(huán)境中，單張A100-40G GPU每日可處理超20萬(wàn)頁(yè)文檔數(shù)據(jù)。不過，模型仍存在局限：當(dāng)壓縮比超過10倍時(shí)，性能會(huì)因信息損失或圖像分辨率降低而下降；在處理極端復(fù)雜版面時(shí)，解析能力有待提升。OCR任務(wù)與多輪對(duì)話理解存在本質(zhì)差異，前者側(cè)重感知和解碼，后者涉及推理、記憶檢索等復(fù)雜認(rèn)知過程。技術(shù)報(bào)告指出，未來計(jì)劃開展數(shù)字文本與光學(xué)文本交錯(cuò)的預(yù)訓(xùn)練實(shí)驗(yàn)，并評(píng)估長(zhǎng)上下文檢索的準(zhǔn)確性。

盡管如此，DeepSeek-OCR為視覺與語(yǔ)言模態(tài)的融合提供了新思路。傳統(tǒng)方法通常將兩者作為獨(dú)立輸入處理，而該模型表明，視覺與語(yǔ)言可互為信息壓縮和解壓的媒介?；谶@一范式，未來或可探索將多輪對(duì)話歷史渲染為圖像，以更低成本管理更長(zhǎng)的對(duì)話；或?qū)⒑Ａ恐R(shí)庫(kù)壓縮為視覺索引，提升知識(shí)檢索效率。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

DeepSeek開源DeepSeek-OCR：用視覺壓縮新招，為長(zhǎng)文本處理降本增效

DeepSeek開源DeepSeek-OCR：用視覺壓縮新招，為長(zhǎng)文本處理降本增效