欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="8xbca"></li>

<ul id="8xbca"></ul>

<ruby id="8xbca"><strong id="8xbca"><wbr id="8xbca"></wbr></strong></ruby>

DeepSeek再奪榜首：創(chuàng)新「因果流」視覺(jué)推理技術(shù)，性能超越Gemini

01-28 06:48

DeepSeek-OCR2正式開源，搭載全新DeepEncoder V2視覺(jué)編碼器，一舉刷新多項(xiàng)SOTA紀(jì)錄。

【導(dǎo)讀】DeepSeek推出開源模型DeepSeek-OCR2，其核心亮點(diǎn)是引入了全新的DeepEncoder V2視覺(jué)編碼器。該架構(gòu)突破了傳統(tǒng)模型固定從左上到右下掃描圖像的局限，轉(zhuǎn)而模仿人類視覺(jué)的「因果流（Causal Flow）」邏輯進(jìn)行信息處理。

DeepSeek又帶來(lái)了新動(dòng)態(tài)！

此次是DeepSeek-OCR模型的重大升級(jí)版本：DeepSeek-OCR2。

大家是否還記得上一代DeepSeek-OCR？就是那個(gè)以視覺(jué)方式實(shí)現(xiàn)極致壓縮的模型。

這一次，DeepSeek更進(jìn)一步，對(duì)視覺(jué)編碼器進(jìn)行了優(yōu)化，提出了全新的DeepEncoder V2架構(gòu)，推動(dòng)視覺(jué)編碼實(shí)現(xiàn)從「固定掃描」到「語(yǔ)義推理」的范式革新！

DeepSeek-OCR2不僅能像人類一樣按照邏輯順序閱讀復(fù)雜文檔，還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA成績(jī)。

按照DeepSeek的一貫風(fēng)格，相關(guān)的論文、代碼和模型已全部開源！

項(xiàng)目地址：https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下載：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

論文地址：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心創(chuàng)新點(diǎn)在于，通過(guò)DeepEncoder V2為模型賦予了因果推理能力（Causal Reasoning）。

這相當(dāng)于給機(jī)器植入了「人類的閱讀邏輯」，讓AI不再機(jī)械地從左上到右下掃描圖像，而是能夠根據(jù)內(nèi)容語(yǔ)義靈活調(diào)整閱讀順序。

DeepSeek-OCR2：開啟視覺(jué)因果流時(shí)代

DeepSeek在論文中提到，傳統(tǒng)的視覺(jué)語(yǔ)言模型（VLM）通常采用光柵掃描（Raster-Scan）順序處理圖像，也就是固定地從左到右、從上到下進(jìn)行掃描。

這種方式會(huì)強(qiáng)行將二維圖像壓縮成一維序列，從而忽略了圖像內(nèi)部的語(yǔ)義結(jié)構(gòu)。

這顯然與人類的視覺(jué)習(xí)慣不符。

人類在查看圖片或閱讀文檔時(shí)，目光會(huì)隨著邏輯流動(dòng)：先看標(biāo)題，再看正文，遇到表格會(huì)按列或按行掃視，遇到分欄會(huì)自動(dòng)跳躍閱讀。

為解決這一問(wèn)題，DeepSeek-OCR2引入了DeepEncoder V2。

它最顯著的特點(diǎn)是用輕量級(jí)大語(yǔ)言模型Qwen2-0.5B替代了原本的CLIP編碼器，并設(shè)計(jì)了獨(dú)特的「因果流查詢」（Causal Flow Query）機(jī)制。

DeepEncoder V2架構(gòu)解析

DeepEncoder V2主要由兩部分構(gòu)成：

1. 視覺(jué)分詞器（Vision Tokenizer）

延續(xù)了SAM-base（80M參數(shù)）搭配卷積層的設(shè)計(jì)，可將圖像轉(zhuǎn)換為視覺(jué)Token。

2. 作為視覺(jué)編碼器的LLM

這里DeepSeek采用了Qwen2-0.5B模型。

該模型不僅能處理視覺(jué)Token，還引入了一組可學(xué)習(xí)的「查詢Token」（Query Tokens）。

關(guān)鍵的創(chuàng)新之處在于注意力掩碼（Attention Mask）的設(shè)計(jì)：

視覺(jué)Token之間采用雙向注意力（Bidirectional Attention），保留了全局感知能力，與ViT類似。

而查詢Token則采用因果注意力（Causal Attention），每個(gè)查詢Token只能關(guān)注到它之前的Token。

通過(guò)這樣的設(shè)計(jì)，DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理：

編碼器借助可學(xué)習(xí)的查詢對(duì)視覺(jué)Token進(jìn)行語(yǔ)義重排，之后的LLM解碼器在這個(gè)有序序列上進(jìn)行自回歸推理。

這意味著DeepSeek-OCR2在編碼階段就已經(jīng)將圖像中的信息「梳理通順」，而非直接一股腦地傳遞給解碼器。

Token數(shù)量減少，識(shí)別精度提升

實(shí)驗(yàn)數(shù)據(jù)表明，DeepSeek-OCR2在保持高壓縮率的同時(shí)，性能得到了顯著提升。

在OmniDocBench v1.5基準(zhǔn)測(cè)試中，DeepSeek-OCR2使用最少的視覺(jué)Token（僅256-1120個(gè)），綜合得分達(dá)到91.09%，相比上一代提升了3.73%。

值得注意的是，在閱讀順序（R-order）的編輯距離（Edit Distance）指標(biāo)上，DeepSeek-OCR2從上一代的0.085大幅降至0.057。

這直接證明了新模型在處理復(fù)雜版面時(shí)邏輯性更強(qiáng)，更能理解「閱讀順序」。

與Gemini-3 Pro等閉源強(qiáng)模型對(duì)比時(shí)，DeepSeek-OCR2也表現(xiàn)出色。

在均使用約1120個(gè)視覺(jué)Token的情況下，DeepSeek-OCR2的文檔解析編輯距離（0.100）優(yōu)于Gemini-3 Pro（0.115）。

DeepSeek-OCR2不僅在測(cè)試中表現(xiàn)優(yōu)異，在實(shí)際生產(chǎn)環(huán)境中也具備很強(qiáng)的實(shí)用性。

DeepSeek透露，在處理在線用戶日志圖像時(shí)，OCR結(jié)果的重復(fù)率從6.25%降至4.17%；在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中，重復(fù)率從3.69%降至2.88%。

這表明模型生成的文本更加精準(zhǔn)、整潔，對(duì)于LLM訓(xùn)練數(shù)據(jù)的清洗流水線具有重要價(jià)值。

向真正的多模態(tài)統(tǒng)一邁進(jìn)

DeepSeek在論文結(jié)尾提到，DeepSeek-OCR2通過(guò)DeepEncoder V2驗(yàn)證了「LLM作為視覺(jué)編碼器」的可行性。

這不僅是OCR模型的一次升級(jí)，更是邁向原生多模態(tài)（Native Multimodality）的關(guān)鍵一步。

未來(lái)，同一編碼器只需配備不同的模態(tài)查詢嵌入（Query Embeddings），就能處理文本、圖片、音頻等多種模態(tài)數(shù)據(jù)，真正實(shí)現(xiàn)萬(wàn)物皆可Token、萬(wàn)物皆可因果推理。

DeepSeek表示，盡管目前光學(xué)文本識(shí)別（OCR）是LLM時(shí)代最實(shí)用的視覺(jué)任務(wù)之一，但這只是視覺(jué)理解領(lǐng)域的一小部分。

DeepSeek將繼續(xù)探索，朝著更通用的多模態(tài)智能方向發(fā)展。

參考資料：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

本文來(lái)自微信公眾號(hào)“新智元”，編輯：定慧好困，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

風(fēng)暴眼丨“性商教母”風(fēng)波未平：線下課隱秘運(yùn)營(yíng)，商業(yè)版圖亂象叢生

山東夫婦攜半畝花田母公司赴港IPO 抖音爆款品牌背后的資本故事

AI浪潮下“新BAT”雛形漸顯：2026年人工智能三大發(fā)展態(tài)勢(shì)

三生花推固態(tài)沐發(fā)粉引領(lǐng)頭皮護(hù)理“無(wú)水”新趨勢(shì)

大裁員潮下的愛(ài)立信與諾基亞：歐洲大本營(yíng)成重災(zāi)區(qū)，需苦熬至6G規(guī)模商用

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<menu id="lkau3"></menu>