欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

DeepSeek再奪榜首:創(chuàng)新「因果流」視覺(jué)推理技術(shù),性能超越Gemini

01-28 06:48
DeepSeek-OCR2正式開源,搭載全新DeepEncoder V2視覺(jué)編碼器,一舉刷新多項(xiàng)SOTA紀(jì)錄。

【導(dǎo)讀】DeepSeek推出開源模型DeepSeek-OCR2,其核心亮點(diǎn)是引入了全新的DeepEncoder V2視覺(jué)編碼器。該架構(gòu)突破了傳統(tǒng)模型固定從左上到右下掃描圖像的局限,轉(zhuǎn)而模仿人類視覺(jué)的「因果流(Causal Flow)」邏輯進(jìn)行信息處理。


DeepSeek又帶來(lái)了新動(dòng)態(tài)!


此次是DeepSeek-OCR模型的重大升級(jí)版本:DeepSeek-OCR2。



大家是否還記得上一代DeepSeek-OCR?就是那個(gè)以視覺(jué)方式實(shí)現(xiàn)極致壓縮的模型。


這一次,DeepSeek更進(jìn)一步,對(duì)視覺(jué)編碼器進(jìn)行了優(yōu)化,提出了全新的DeepEncoder V2架構(gòu),推動(dòng)視覺(jué)編碼實(shí)現(xiàn)從「固定掃描」到「語(yǔ)義推理」的范式革新!



DeepSeek-OCR2不僅能像人類一樣按照邏輯順序閱讀復(fù)雜文檔,還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA成績(jī)。


按照DeepSeek的一貫風(fēng)格,相關(guān)的論文、代碼和模型已全部開源!



項(xiàng)目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2


模型下載:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


論文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf



DeepSeek-OCR2的核心創(chuàng)新點(diǎn)在于,通過(guò)DeepEncoder V2為模型賦予了因果推理能力(Causal Reasoning)。


這相當(dāng)于給機(jī)器植入了「人類的閱讀邏輯」,讓AI不再機(jī)械地從左上到右下掃描圖像,而是能夠根據(jù)內(nèi)容語(yǔ)義靈活調(diào)整閱讀順序。


DeepSeek-OCR2:開啟視覺(jué)因果流時(shí)代


DeepSeek在論文中提到,傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,也就是固定地從左到右、從上到下進(jìn)行掃描。


這種方式會(huì)強(qiáng)行將二維圖像壓縮成一維序列,從而忽略了圖像內(nèi)部的語(yǔ)義結(jié)構(gòu)。



這顯然與人類的視覺(jué)習(xí)慣不符。


人類在查看圖片或閱讀文檔時(shí),目光會(huì)隨著邏輯流動(dòng):先看標(biāo)題,再看正文,遇到表格會(huì)按列或按行掃視,遇到分欄會(huì)自動(dòng)跳躍閱讀。


為解決這一問(wèn)題,DeepSeek-OCR2引入了DeepEncoder V2。


它最顯著的特點(diǎn)是用輕量級(jí)大語(yǔ)言模型Qwen2-0.5B替代了原本的CLIP編碼器,并設(shè)計(jì)了獨(dú)特的「因果流查詢」(Causal Flow Query)機(jī)制。


DeepEncoder V2架構(gòu)解析

DeepEncoder V2主要由兩部分構(gòu)成:


1. 視覺(jué)分詞器(Vision Tokenizer)


延續(xù)了SAM-base(80M參數(shù))搭配卷積層的設(shè)計(jì),可將圖像轉(zhuǎn)換為視覺(jué)Token。



2. 作為視覺(jué)編碼器的LLM


這里DeepSeek采用了Qwen2-0.5B模型。


該模型不僅能處理視覺(jué)Token,還引入了一組可學(xué)習(xí)的「查詢Token」(Query Tokens)。



關(guān)鍵的創(chuàng)新之處在于注意力掩碼(Attention Mask)的設(shè)計(jì):



視覺(jué)Token之間采用雙向注意力(Bidirectional Attention),保留了全局感知能力,與ViT類似。


而查詢Token則采用因果注意力(Causal Attention),每個(gè)查詢Token只能關(guān)注到它之前的Token。


通過(guò)這樣的設(shè)計(jì),DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理:


編碼器借助可學(xué)習(xí)的查詢對(duì)視覺(jué)Token進(jìn)行語(yǔ)義重排,之后的LLM解碼器在這個(gè)有序序列上進(jìn)行自回歸推理。


這意味著DeepSeek-OCR2在編碼階段就已經(jīng)將圖像中的信息「梳理通順」,而非直接一股腦地傳遞給解碼器。


Token數(shù)量減少,識(shí)別精度提升


實(shí)驗(yàn)數(shù)據(jù)表明,DeepSeek-OCR2在保持高壓縮率的同時(shí),性能得到了顯著提升。


在OmniDocBench v1.5基準(zhǔn)測(cè)試中,DeepSeek-OCR2使用最少的視覺(jué)Token(僅256-1120個(gè)),綜合得分達(dá)到91.09%,相比上一代提升了3.73%。



值得注意的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR2從上一代的0.085大幅降至0.057。


這直接證明了新模型在處理復(fù)雜版面時(shí)邏輯性更強(qiáng),更能理解「閱讀順序」。


與Gemini-3 Pro等閉源強(qiáng)模型對(duì)比時(shí),DeepSeek-OCR2也表現(xiàn)出色。


在均使用約1120個(gè)視覺(jué)Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。




DeepSeek-OCR2不僅在測(cè)試中表現(xiàn)優(yōu)異,在實(shí)際生產(chǎn)環(huán)境中也具備很強(qiáng)的實(shí)用性。


DeepSeek透露,在處理在線用戶日志圖像時(shí),OCR結(jié)果的重復(fù)率從6.25%降至4.17%;在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中,重復(fù)率從3.69%降至2.88%。



這表明模型生成的文本更加精準(zhǔn)、整潔,對(duì)于LLM訓(xùn)練數(shù)據(jù)的清洗流水線具有重要價(jià)值。


向真正的多模態(tài)統(tǒng)一邁進(jìn)


DeepSeek在論文結(jié)尾提到,DeepSeek-OCR2通過(guò)DeepEncoder V2驗(yàn)證了「LLM作為視覺(jué)編碼器」的可行性。


這不僅是OCR模型的一次升級(jí),更是邁向原生多模態(tài)(Native Multimodality)的關(guān)鍵一步。


未來(lái),同一編碼器只需配備不同的模態(tài)查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)數(shù)據(jù),真正實(shí)現(xiàn)萬(wàn)物皆可Token、萬(wàn)物皆可因果推理。


DeepSeek表示,盡管目前光學(xué)文本識(shí)別(OCR)是LLM時(shí)代最實(shí)用的視覺(jué)任務(wù)之一,但這只是視覺(jué)理解領(lǐng)域的一小部分。


DeepSeek將繼續(xù)探索,朝著更通用的多模態(tài)智能方向發(fā)展。


參考資料:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


本文來(lái)自微信公眾號(hào)“新智元”,編輯:定慧 好困,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com