欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

DeepSeek全新OCR模型：模擬人類閱讀邏輯，文檔理解能力大幅提升

01-28 06:42

DeepSeek推出的這款新模型框架，可用于整合文本、語音、視覺等多種不同模態(tài)。

▲頭圖由AI生成

智東西1月27日消息，DeepSeek剛剛開源了針對(duì)OCR場(chǎng)景的專用模型DeepSeek-OCR 2，并且同步發(fā)布了技術(shù)報(bào)告。該模型是去年DeepSeek-OCR模型的升級(jí)版，其采用的新型解碼器讓模型看圖、讀取文件的順序更貼近人類的閱讀習(xí)慣，而非像機(jī)械掃描儀那樣刻板。

簡單來講，以往的模型閱讀方式是從左上角到右下角，對(duì)圖片進(jìn)行地毯式掃描，而DeepSeek-OCR 2能夠理解圖片的結(jié)構(gòu)，按照結(jié)構(gòu)逐步讀取內(nèi)容。這種全新的視覺理解模式，使DeepSeek-OCR 2可以更好地解讀復(fù)雜的布局順序、公式以及表格。

在文檔理解基準(zhǔn)測(cè)試OmniDocBench v1.5中，DeepSeek-OCR 2取得了91.09%的得分。在訓(xùn)練數(shù)據(jù)和編碼器均保持不變的情況下，相比DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比，這已是最優(yōu)成績，不過其表現(xiàn)略低于百度的PaddleOCR-VL（92.86%）OCR管線。

同時(shí)，在視覺token預(yù)算相近的情況下，DeepSeek-OCR 2在文檔解析方面的編輯距離（將文本修改為正確內(nèi)容所需的工作量）低于Gemini-3 Pro，這表明DeepSeek-OCR 2在保證出色性能的同時(shí)，還維持了視覺token的高壓縮率。

DeepSeek-OCR 2具有雙重價(jià)值：既可以作為新型VLM（視覺語言模型）架構(gòu)開展探索性研究，也能充當(dāng)生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的實(shí)用工具，為大語言模型的訓(xùn)練過程提供服務(wù)。

論文鏈接： https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

開源地址： https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.大模型難以理解復(fù)雜文件結(jié)構(gòu)？先觀察全局再閱讀即可解決

從架構(gòu)角度來看，DeepSeek-OCR 2延續(xù)了DeepSeek-OCR的整體架構(gòu)，該架構(gòu)由編碼器和解碼器構(gòu)成。編碼器將圖像轉(zhuǎn)化為離散的視覺token，解碼器則依據(jù)這些視覺token和文本提示生成輸出內(nèi)容。

關(guān)鍵的區(qū)別在于編碼器：DeepSeek將之前的DeepEncoder升級(jí)為DeepEncoder V2，它保留了原有的全部功能，但把基于CLIP的編碼器替換成了基于LLM的編碼器，同時(shí)通過新的架構(gòu)設(shè)計(jì)引入了因果推理機(jī)制。

DeepEncoder V2關(guān)注的核心問題是：當(dāng)二維結(jié)構(gòu)被映射為一維序列并綁定線性順序后，模型在構(gòu)建空間關(guān)系時(shí)會(huì)不可避免地受到該順序的影響。

這種情況在自然圖像中或許還能接受，但在OCR、表格、表單等布局復(fù)雜的場(chǎng)景中，線性順序往往與真實(shí)的語義組織方式存在很大差異，進(jìn)而限制了模型對(duì)視覺結(jié)構(gòu)的表達(dá)能力。

DeepEncoder V2是如何解決這一問題的呢？它首先運(yùn)用視覺tokenizer對(duì)圖像進(jìn)行高效表示，通過窗口注意力實(shí)現(xiàn)約16倍的token壓縮，在大幅減少后續(xù)全局注意力計(jì)算和顯存開銷的同時(shí)，保留了充足的局部與中尺度視覺信息。

它沒有依賴位置編碼來規(guī)定視覺token的語義順序，而是引入了因果流查詢（causal queries），通過內(nèi)容感知的方式對(duì)視覺標(biāo)記進(jìn)行重新排序與提煉。這種順序并非由空間展開規(guī)則決定，而是由模型在觀察全局視覺上下文后逐步生成，從而避免了對(duì)固定一維順序的過度依賴。

每個(gè)因果查詢都可以關(guān)注所有視覺token以及先前的查詢，這樣在保持token數(shù)量不變的前提下，就能對(duì)視覺特征進(jìn)行語義重排序和信息提煉。最終，只有因果查詢的輸出會(huì)被送入下游的LLM解碼器。

該設(shè)計(jì)本質(zhì)上形成了兩級(jí)級(jí)聯(lián)的因果推理過程：首先，編碼器內(nèi)部借助因果查詢對(duì)無序的視覺標(biāo)記進(jìn)行語義排序；隨后，LLM解碼器在這個(gè)有序序列的基礎(chǔ)上執(zhí)行自回歸推理。

與通過位置編碼強(qiáng)制施加空間順序的方法相比，因果查詢所引導(dǎo)的順序更符合視覺語義本身，也就是與人類正常的閱讀習(xí)慣相一致。

由于DeepSeek-OCR 2主要側(cè)重于編碼器的改進(jìn)，并未對(duì)解碼器組件進(jìn)行升級(jí)。遵循這一設(shè)計(jì)原則，DeepSeek保留了DeepSeek-OCR的解碼器：一個(gè)擁有約5億活躍參數(shù)的3B參數(shù)MoE結(jié)構(gòu)。

02.OmniDocBench得分達(dá)91.09%，編輯距離低于Gemini-3 Pro

為了驗(yàn)證上述設(shè)計(jì)的有效性，DeepSeek開展了實(shí)驗(yàn)。研究團(tuán)隊(duì)分三個(gè)階段對(duì)DeepSeek-OCR 2進(jìn)行訓(xùn)練：編碼器預(yù)訓(xùn)練、查詢?cè)鰪?qiáng)以及解碼器專業(yè)化。

第一階段讓視覺tokenizer和LLM風(fēng)格的編碼器具備特征提取、token壓縮和token重排序的基本能力。第二階段進(jìn)一步增強(qiáng)了編碼器的token重排序能力，同時(shí)強(qiáng)化了視覺知識(shí)壓縮。第三階段凍結(jié)編碼器參數(shù)，僅對(duì)解碼器進(jìn)行優(yōu)化，從而在相同的FLOPs下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。

為評(píng)估模型效果，DeepSeek選擇OmniDocBench v1.5作為主要的評(píng)估基準(zhǔn)。該基準(zhǔn)包含1355個(gè)文檔頁面，涵蓋中英文的9個(gè)主要類別（包括雜志、學(xué)術(shù)論文、研究報(bào)告等）。

DeepSeek-OCR 2在僅使用最小視覺標(biāo)記上限（V-tokenmaxmax）的情況下，就獲得了91.09%的性能得分。與DeepSeek-OCR基線相比，在訓(xùn)練數(shù)據(jù)源相似的情況下，它的性能提升了3.73%，這驗(yàn)證了新架構(gòu)的有效性。

除了整體性能的提升外，閱讀順序（R-order）的編輯距離（ED）也顯著降低（從0.085降至0.057），這表明新的DeepEncoder V2能夠根據(jù)圖像信息有效地選擇和排列初始視覺標(biāo)記。

在視覺標(biāo)記預(yù)算相近（1120）的情況下，DeepSeek-OCR 2（0.100）在文檔解析方面的編輯距離低于Gemini-3 Pro（0.115），進(jìn)一步證明了新模型在保證性能的同時(shí)，還維持了視覺標(biāo)記的高壓縮率。

不過，DeepSeek-OCR 2也并非十全十美。在文本密度極高的報(bào)紙上，DeepSeek-OCR 2的識(shí)別效果不如其他類型的文本。這一問題后續(xù)可以通過增加局部裁剪數(shù)量或者在訓(xùn)練過程中提供更多樣本來解決。

03.結(jié)語：有望成為新型VLM架構(gòu)的開端

DeepEncoder V2為LLM風(fēng)格編碼器在視覺任務(wù)中的可行性提供了初步驗(yàn)證。更重要的是，DeepSeek的研究團(tuán)隊(duì)認(rèn)為，該架構(gòu)具備演變?yōu)榻y(tǒng)一全模態(tài)編碼器的潛力。這樣的編碼器能夠在同一參數(shù)空間內(nèi)壓縮文本、提取語音特征并重組視覺內(nèi)容。

DeepSeek表示，DeepSeek-OCR的光學(xué)壓縮代表了向原生多模態(tài)的初步探索，未來，他們還將繼續(xù)探索通過這種共享編碼器框架整合更多模態(tài)，使其成為研究探索新型VLM架構(gòu)的開端。

本文來自微信公眾號(hào) “智東西”（ID：zhidxcom），作者：陳駿達(dá)，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

大飛機(jī)板塊集體爆發(fā)！國產(chǎn)C919交付提速迎來多重利好驅(qū)動(dòng)

奧特曼坦言O(shè)penAI路線曾偏離，稱未來寫代碼重要性將降低

從男裝“四大金剛”到連虧兩年：老牌國民男裝的困局與破局

虛之實(shí)完成超5000萬元A+輪融資 AI醫(yī)療與腦機(jī)接口交叉賽道引關(guān)注

安踏高溢價(jià)收購彪馬：全球運(yùn)動(dòng)服飾格局的東方轉(zhuǎn)向

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<small id="ewogc"></small>

<strike id="ewogc"></strike>

<abbr id="ewogc"><tbody id="ewogc"></tbody></abbr>