DeepSeek-R2將至?R1一周年:它如何重塑開源AI生態(tài)
DeepSeek-R1發(fā)布一周年之際,核心算法庫驚現(xiàn)MODEL1,是迭代版本還是新一代R2?
2025年1月20日,DeepSeek-R1正式發(fā)布,這一里程碑事件讓國產(chǎn)大模型首次躋身全球核心舞臺,同時開啟了大模型的開源新紀(jì)元。
就在R1發(fā)布一周年的關(guān)鍵節(jié)點,深夜的開發(fā)者社區(qū)突然沸騰——DeepSeek的一個存儲庫更新中,出現(xiàn)了全新的「model 1」模型引用。

盡管DeepSeek-R1已發(fā)布一年,但備受期待的R2尚未露面。而此次曝光的MODEL1,被業(yè)內(nèi)猜測極有可能就是新一代的R2!
在DeepSeek開源項目FlashMLA庫的代碼片段中,明確引用了「MODEL1」,還同步出現(xiàn)了針對KV緩存的新優(yōu)化,以及對576B步幅稀疏FP8解碼的支持。

FlashMLA是DeepSeek自研的優(yōu)化注意力內(nèi)核庫,曾為DeepSeek-V3和DeepSeek-V3.2-Exp模型提供技術(shù)支撐。

該項目中,「model 1」的提及次數(shù)約達28處,從代碼細節(jié)來看,這無疑是新模型即將發(fā)布的明確信號。













值得注意的是,此次爆料恰好趕上DeepSeek-R1發(fā)布一周年(2025年1月20日)。作為開源推理模型,R1曾與OpenAI o1實力相當(dāng),并登頂iOS App Store,徹底改變了開源AI社區(qū)的格局。即便MODEL1并非R2,其意義也不容小覷,畢竟FlashMLA是DeepSeek的核心注意力優(yōu)化算法庫。
FlashMLA是DeepSeek針對Hopper架構(gòu)GPU(如H800)優(yōu)化的MLA(Multi-head Latent Attention)解碼內(nèi)核。推理層代碼中出現(xiàn)新模型ID,通常意味著代號為Model1的新模型將繼續(xù)復(fù)用或改進現(xiàn)有的MLA架構(gòu),這表明DeepSeek團隊正全力推進新模型的推理適配工作,F(xiàn)lashMLA作為核心推理優(yōu)化工具的地位依然穩(wěn)固。
此前,DeepSeek確實面臨過一些挑戰(zhàn)。本月15日,國外媒體報道稱,DeepSeek在研發(fā)新一代旗艦?zāi)P蜁r曾遭遇算力問題,但團隊及時調(diào)整策略并取得進展,計劃在「未來幾周內(nèi)」推出該新模型。
HuggingFace視角:DeepSeek如何改變開源AI
在DeepSeek R1發(fā)布一周年之際,HuggingFace發(fā)文剖析了DeepSeek對開源AI的變革性影響。

盡管R1并非當(dāng)時性能最強的模型,但其真正價值在于降低了三大壁壘:
一是技術(shù)壁壘。通過公開推理路徑和后訓(xùn)練方法,R1將原本封閉在API背后的高級推理能力,轉(zhuǎn)化為可下載、可蒸餾、可微調(diào)的工程資源。眾多團隊無需從頭訓(xùn)練大模型,就能獲得強大的推理能力,推理開始成為可在不同系統(tǒng)中復(fù)用的模塊,推動行業(yè)重新審視模型能力與計算成本的關(guān)系,這在算力受限的中國環(huán)境中尤為重要。
二是采用壁壘。R1以MIT許可證發(fā)布,簡化了使用、修改和再分發(fā)流程。原本依賴閉源模型的企業(yè)開始直接將R1投入生產(chǎn),蒸餾、二次訓(xùn)練和領(lǐng)域適應(yīng)成為常規(guī)工程工作,而非特殊項目。隨著分發(fā)限制的解除,模型迅速融入云平臺和工具鏈,社區(qū)討論焦點也從「哪個模型分數(shù)更高」轉(zhuǎn)向「如何部署、降本及集成到實際系統(tǒng)」,R1逐漸從研究成果演變?yōu)榭蓮?fù)用的工程基礎(chǔ)。
三是心理壁壘。當(dāng)問題從「我們能做這個嗎?」轉(zhuǎn)變?yōu)椤肝覀內(nèi)绾巫龊眠@個?」時,許多企業(yè)的決策邏輯發(fā)生了改變。對中國AI社區(qū)而言,這是獲得全球持續(xù)關(guān)注的難得機遇,對于長期被視為追隨者的生態(tài)系統(tǒng)來說,意義重大。

這三大壁壘的降低,讓AI生態(tài)系統(tǒng)具備了自我復(fù)制的能力。
DeepSeek-R1一周年回顧
讓我們回到原點,回顧DeepSeek-R1誕生的這一年。在R1出現(xiàn)之前,大模型的進化方向幾乎只有參數(shù)規(guī)模擴大、數(shù)據(jù)量增加……但模型真的在「思考」嗎?這個問題,正是DeepSeek-R1的起點。它并非追求更快的回答速度,而是刻意讓模型「慢下來」——慢在推理鏈條的展開,慢在中間狀態(tài)的顯式表達。
從技術(shù)層面看,DeepSeek-R1的關(guān)鍵突破并非單一技巧,而是一整套系統(tǒng)性設(shè)計。

推理優(yōu)先的訓(xùn)練目標(biāo):在傳統(tǒng)SFT/RLHF體系中,最終答案的「正確性」是唯一目標(biāo),而R1引入了更細粒度的訓(xùn)練信號。
高密度推理數(shù)據(jù)而非高密度知識:R1的訓(xùn)練數(shù)據(jù)不追求百科全書式的覆蓋,而是聚焦于數(shù)學(xué)與邏輯推導(dǎo)、可驗證的復(fù)雜任務(wù)。對R1而言,過程比答案更重要,這也使其在數(shù)學(xué)、代碼、復(fù)雜推理領(lǐng)域?qū)崿F(xiàn)了「跨尺度躍遷」。
推理過程的「內(nèi)化」而非復(fù)讀模板:外界常誤解R1只是「更會寫CoT(思維鏈)」,但真正的變化在于,模型并非復(fù)讀訓(xùn)練中的推理模板,而是在內(nèi)部形成了穩(wěn)定的推理狀態(tài)轉(zhuǎn)移結(jié)構(gòu),讓推理從外掛能力轉(zhuǎn)變?yōu)閮?nèi)生能力。
一年之后:R1帶來了哪些改變?
首先,它重塑了對「對齊」的理解。R1之后,人們意識到對齊不僅是價值取向的對齊,更是認知過程的對齊。
其次,它拓展了開源模型的想象空間。R1證明,在推理維度上,開源模型并非追隨者,而是可以成為范式定義者,極大激發(fā)了社區(qū)對「Reasoning LLM(推理大模型)」的探索熱情。
第三,它改變了工程師與模型的協(xié)作方式。當(dāng)模型開始「展示思路」,人類的角色就從單純的提問者轉(zhuǎn)變?yōu)楹献髡摺?/p>
回到當(dāng)下,R1的探索仍未結(jié)束。一周年并非終點,我們清楚地知道,推理能力仍有明顯上限,長鏈路思考的成本依然高昂。但正如一年前選擇研發(fā)R1時那樣,真正重要的不是已解決的問題,而是方向是否正確。DeepSeek-R1的故事還在繼續(xù),這一年,只是序章。
參考資料:
https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment%20
https://x.com/testingcatalog/status/2013588515271962678%20
https://x.com/nopainkiller/status/2013522059662614653
本文來自微信公眾號“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





