欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

DeepSeek全新OCR模型:模擬人類閱讀邏輯,文檔理解能力大幅提升

01-28 06:42
DeepSeek推出的這款新模型框架,可用于整合文本、語音、視覺等多種不同模態(tài)。


▲頭圖由AI生成


智東西1月27日消息,DeepSeek剛剛開源了針對(duì)OCR場(chǎng)景的專用模型DeepSeek-OCR 2,并且同步發(fā)布了技術(shù)報(bào)告。該模型是去年DeepSeek-OCR模型的升級(jí)版,其采用的新型解碼器讓模型看圖、讀取文件的順序更貼近人類的閱讀習(xí)慣,而非像機(jī)械掃描儀那樣刻板。


簡單來講,以往的模型閱讀方式是從左上角到右下角,對(duì)圖片進(jìn)行地毯式掃描,而DeepSeek-OCR 2能夠理解圖片的結(jié)構(gòu),按照結(jié)構(gòu)逐步讀取內(nèi)容。這種全新的視覺理解模式,使DeepSeek-OCR 2可以更好地解讀復(fù)雜的布局順序、公式以及表格。


在文檔理解基準(zhǔn)測(cè)試OmniDocBench v1.5中,DeepSeek-OCR 2取得了91.09%的得分。在訓(xùn)練數(shù)據(jù)和編碼器均保持不變的情況下,相比DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比,這已是最優(yōu)成績,不過其表現(xiàn)略低于百度的PaddleOCR-VL(92.86%)OCR管線。



同時(shí),在視覺token預(yù)算相近的情況下,DeepSeek-OCR 2在文檔解析方面的編輯距離(將文本修改為正確內(nèi)容所需的工作量)低于Gemini-3 Pro,這表明DeepSeek-OCR 2在保證出色性能的同時(shí),還維持了視覺token的高壓縮率。


DeepSeek-OCR 2具有雙重價(jià)值:既可以作為新型VLM(視覺語言模型)架構(gòu)開展探索性研究,也能充當(dāng)生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的實(shí)用工具,為大語言模型的訓(xùn)練過程提供服務(wù)。


論文鏈接: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf


開源地址: https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file


01.大模型難以理解復(fù)雜文件結(jié)構(gòu)?先觀察全局再閱讀即可解決


從架構(gòu)角度來看,DeepSeek-OCR 2延續(xù)了DeepSeek-OCR的整體架構(gòu),該架構(gòu)由編碼器和解碼器構(gòu)成。編碼器將圖像轉(zhuǎn)化為離散的視覺token,解碼器則依據(jù)這些視覺token和文本提示生成輸出內(nèi)容。


關(guān)鍵的區(qū)別在于編碼器:DeepSeek將之前的DeepEncoder升級(jí)為DeepEncoder V2,它保留了原有的全部功能,但把基于CLIP的編碼器替換成了基于LLM的編碼器,同時(shí)通過新的架構(gòu)設(shè)計(jì)引入了因果推理機(jī)制。



DeepEncoder V2關(guān)注的核心問題是:當(dāng)二維結(jié)構(gòu)被映射為一維序列并綁定線性順序后,模型在構(gòu)建空間關(guān)系時(shí)會(huì)不可避免地受到該順序的影響。


這種情況在自然圖像中或許還能接受,但在OCR、表格、表單等布局復(fù)雜的場(chǎng)景中,線性順序往往與真實(shí)的語義組織方式存在很大差異,進(jìn)而限制了模型對(duì)視覺結(jié)構(gòu)的表達(dá)能力。


DeepEncoder V2是如何解決這一問題的呢?它首先運(yùn)用視覺tokenizer對(duì)圖像進(jìn)行高效表示,通過窗口注意力實(shí)現(xiàn)約16倍的token壓縮,在大幅減少后續(xù)全局注意力計(jì)算和顯存開銷的同時(shí),保留了充足的局部與中尺度視覺信息。


它沒有依賴位置編碼來規(guī)定視覺token的語義順序,而是引入了因果流查詢(causal queries),通過內(nèi)容感知的方式對(duì)視覺標(biāo)記進(jìn)行重新排序與提煉。這種順序并非由空間展開規(guī)則決定,而是由模型在觀察全局視覺上下文后逐步生成,從而避免了對(duì)固定一維順序的過度依賴。


每個(gè)因果查詢都可以關(guān)注所有視覺token以及先前的查詢,這樣在保持token數(shù)量不變的前提下,就能對(duì)視覺特征進(jìn)行語義重排序和信息提煉。最終,只有因果查詢的輸出會(huì)被送入下游的LLM解碼器。


該設(shè)計(jì)本質(zhì)上形成了兩級(jí)級(jí)聯(lián)的因果推理過程:首先,編碼器內(nèi)部借助因果查詢對(duì)無序的視覺標(biāo)記進(jìn)行語義排序;隨后,LLM解碼器在這個(gè)有序序列的基礎(chǔ)上執(zhí)行自回歸推理。


與通過位置編碼強(qiáng)制施加空間順序的方法相比,因果查詢所引導(dǎo)的順序更符合視覺語義本身,也就是與人類正常的閱讀習(xí)慣相一致。


由于DeepSeek-OCR 2主要側(cè)重于編碼器的改進(jìn),并未對(duì)解碼器組件進(jìn)行升級(jí)。遵循這一設(shè)計(jì)原則,DeepSeek保留了DeepSeek-OCR的解碼器:一個(gè)擁有約5億活躍參數(shù)的3B參數(shù)MoE結(jié)構(gòu)。


02.OmniDocBench得分達(dá)91.09%,編輯距離低于Gemini-3 Pro


為了驗(yàn)證上述設(shè)計(jì)的有效性,DeepSeek開展了實(shí)驗(yàn)。研究團(tuán)隊(duì)分三個(gè)階段對(duì)DeepSeek-OCR 2進(jìn)行訓(xùn)練:編碼器預(yù)訓(xùn)練、查詢?cè)鰪?qiáng)以及解碼器專業(yè)化。


第一階段讓視覺tokenizer和LLM風(fēng)格的編碼器具備特征提取、token壓縮和token重排序的基本能力。第二階段進(jìn)一步增強(qiáng)了編碼器的token重排序能力,同時(shí)強(qiáng)化了視覺知識(shí)壓縮。第三階段凍結(jié)編碼器參數(shù),僅對(duì)解碼器進(jìn)行優(yōu)化,從而在相同的FLOPs下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。


為評(píng)估模型效果,DeepSeek選擇OmniDocBench v1.5作為主要的評(píng)估基準(zhǔn)。該基準(zhǔn)包含1355個(gè)文檔頁面,涵蓋中英文的9個(gè)主要類別(包括雜志、學(xué)術(shù)論文、研究報(bào)告等)。


DeepSeek-OCR 2在僅使用最小視覺標(biāo)記上限(V-tokenmaxmax)的情況下,就獲得了91.09%的性能得分。與DeepSeek-OCR基線相比,在訓(xùn)練數(shù)據(jù)源相似的情況下,它的性能提升了3.73%,這驗(yàn)證了新架構(gòu)的有效性。


除了整體性能的提升外,閱讀順序(R-order)的編輯距離(ED)也顯著降低(從0.085降至0.057),這表明新的DeepEncoder V2能夠根據(jù)圖像信息有效地選擇和排列初始視覺標(biāo)記。


在視覺標(biāo)記預(yù)算相近(1120)的情況下,DeepSeek-OCR 2(0.100)在文檔解析方面的編輯距離低于Gemini-3 Pro(0.115),進(jìn)一步證明了新模型在保證性能的同時(shí),還維持了視覺標(biāo)記的高壓縮率。



不過,DeepSeek-OCR 2也并非十全十美。在文本密度極高的報(bào)紙上,DeepSeek-OCR 2的識(shí)別效果不如其他類型的文本。這一問題后續(xù)可以通過增加局部裁剪數(shù)量或者在訓(xùn)練過程中提供更多樣本來解決。


03.結(jié)語:有望成為新型VLM架構(gòu)的開端


DeepEncoder V2為LLM風(fēng)格編碼器在視覺任務(wù)中的可行性提供了初步驗(yàn)證。更重要的是,DeepSeek的研究團(tuán)隊(duì)認(rèn)為,該架構(gòu)具備演變?yōu)榻y(tǒng)一全模態(tài)編碼器的潛力。這樣的編碼器能夠在同一參數(shù)空間內(nèi)壓縮文本、提取語音特征并重組視覺內(nèi)容。


DeepSeek表示,DeepSeek-OCR的光學(xué)壓縮代表了向原生多模態(tài)的初步探索,未來,他們還將繼續(xù)探索通過這種共享編碼器框架整合更多模態(tài),使其成為研究探索新型VLM架構(gòu)的開端。


本文來自微信公眾號(hào) “智東西”(ID:zhidxcom),作者:陳駿達(dá),36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com