欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

DeepSeek大規(guī)模擴(kuò)招梁文鋒攜硬核技術(shù)蓄勢待發(fā)

01-15 06:42

春節(jié)檔已提前開啟

摘要：

2025年11月DeepSeek曾開放行政招聘，相關(guān)人士稱是因團(tuán)隊擴(kuò)大需更多行政人員支持。

距離春節(jié)尚有一段時間，國內(nèi)科技圈節(jié)奏似已提前進(jìn)入假期模式，唯有DeepSeek例外。

昨日，DeepSeek突然在GitHub開源新模塊Engram的代碼，并發(fā)布論文《Conditional Memory via Scalable Lookup》；元旦當(dāng)天，還發(fā)布了關(guān)于模型架構(gòu)穩(wěn)定性的《mHC》論文。

兩篇硬核論文作者列表中均有DeepSeek創(chuàng)始人梁文鋒的名字。如此高密度的技術(shù)輸出，并非為湊年底KPI，而是向外界傳遞明確信號：沉默期間，DeepSeek并未停歇，正為下一代模型積蓄力量。

旺盛的招聘需求印證了這一觀點(diǎn)。鳳凰網(wǎng)科技檢索社交媒體信息發(fā)現(xiàn)，DeepSeek近期大量招人，放出多個核心技術(shù)崗位，包括深度學(xué)習(xí)研究員（負(fù)責(zé)LLM前沿探索，如預(yù)訓(xùn)練、alignment、codemath等方向）、深度學(xué)習(xí)研發(fā)工程師（LLM預(yù)訓(xùn)練數(shù)據(jù)/搜索策略相關(guān)）、大模型全棧工程師（算法與工程并重，參與前沿方向及環(huán)境部署）、全棧開發(fā)工程師、核心系統(tǒng)研發(fā)工程師等。招聘者表示校招、社招、實習(xí)均開放，還有產(chǎn)品、設(shè)計、數(shù)據(jù)百曉生等崗位。

值得注意的是，從梁文鋒此前署名論文的作者名單看，DeepSeek人員穩(wěn)定性高，此次招聘主要是擴(kuò)招需求。多數(shù)崗位可在北京或杭州工作，與此前多需赴杭州不同。2025年11月DeepSeek就曾開放行政招聘，相關(guān)人士稱是團(tuán)隊擴(kuò)大需更多行政伙伴。

如今技術(shù)儲備已足，或許正是梁文鋒帶領(lǐng)團(tuán)隊發(fā)力的時刻。

梁文鋒提前開啟DeepSeek“春節(jié)檔”

DeepSeek的“春節(jié)檔”已提前拉開帷幕。當(dāng)全行業(yè)盤點(diǎn)2025年應(yīng)用層得失時，DeepSeek將目光聚焦于架構(gòu)層。

最新發(fā)布的Engram研究是與北京大學(xué)合作完成的，直指當(dāng)前Transformer架構(gòu)的痛點(diǎn)：大模型雖通過MoE實現(xiàn)“條件計算”，卻缺乏原生“條件記憶”，記東西依賴算力模擬檢索。DeepSeek提出的Engram模塊，要為大模型加裝外掛“硬盤”，使其能以O(shè)(1)時間復(fù)雜度調(diào)取知識，無需算力硬抗。

元旦發(fā)布的《mHC：流形約束超連接》中，梁文鋒團(tuán)隊解決了超大規(guī)模模型訓(xùn)練穩(wěn)定性問題。隨著模型增大，傳統(tǒng)殘差連接失效，訓(xùn)練易崩潰。DeepSeek用數(shù)學(xué)方法將神經(jīng)網(wǎng)絡(luò)連接約束在特定流形空間，恢復(fù)信息傳遞穩(wěn)定性。

實驗顯示，在27B參數(shù)混合專家模型上，mHC訓(xùn)練曲線穩(wěn)定，最終損失較基線降低。

DeepSeek團(tuán)隊還為mHC架構(gòu)做了一系列基礎(chǔ)設(shè)施優(yōu)化：用TileLang框架實現(xiàn)融合內(nèi)核，合并分散操作減少內(nèi)存訪問；針對Sinkhorn-Knopp算法設(shè)計專用內(nèi)核，避免存儲開銷；擴(kuò)展DualPipe調(diào)度策略，實現(xiàn)計算與通信重疊。這些優(yōu)化讓mHC在保持性能優(yōu)勢的同時減少額外開銷。

回顧過去一年，DeepSeek在做什么？若說V2和V3證明團(tuán)隊能做好MoE，那這一年DeepSeek試圖回答“除了MoE，大模型還需要什么”。

首先是記憶機(jī)制重構(gòu)。Engram設(shè)計中，DeepSeek發(fā)現(xiàn)U型擴(kuò)展規(guī)律：同等參數(shù)量和計算量下，20%-25%資源分給靜態(tài)記憶（Engram）、剩余給神經(jīng)計算（MoE）時模型效果最佳。這一反直覺發(fā)現(xiàn)表明，少算多記反而更聰明。

數(shù)據(jù)支撐這一理論：Engram擴(kuò)展到270億參數(shù)后，模型背書能力（MMLU）提升3.4，推理能力（BBH）提升5.0，數(shù)學(xué)能力提升2.4，長文本測試準(zhǔn)確率從84.2%升至97.0%。

其次是底層連接修補(bǔ)。mHC研究中，團(tuán)隊展現(xiàn)出工程與數(shù)學(xué)結(jié)合能力，優(yōu)化后27B規(guī)模模型訓(xùn)練損失降低0.021，推理能力提升2.1%。

這一年，DeepSeek未在應(yīng)用層紅海戀戰(zhàn)，而是回歸硬核領(lǐng)域夯實Transformer架構(gòu)地基：Engram解決“記不住”“推理慢”問題，mHC解決“長不大”“練不穩(wěn)”問題。

正因如此，一年過去DeepSeek仍處于行業(yè)前列。正如業(yè)內(nèi)人士所言：“DeepSeek這家公司始終在創(chuàng)新。”

DeepSeek V4是否即將面世？

如今高潮或?qū)⒌絹恚芯€索指向同一方向：DeepSeek V4。

疊加兩篇論文看，V4輪廓已清晰。它大概率不是單純堆砌參數(shù)的模型，而是架構(gòu)精巧的“融合體”：具備MoE的計算效率，集成Engram的低成本記憶，底層由mHC架構(gòu)支撐超大規(guī)模訓(xùn)練穩(wěn)定性。

Engram論文提到，該架構(gòu)支持“預(yù)取-重疊”策略，CPU存知識、GPU算邏輯。這意味著V4可能在保持推理成本低廉的同時，擁有更強(qiáng)知識容量和長上下文處理能力，或?qū)︼@存成本受限的行業(yè)形成降維打擊。

此外，mHC的成功驗證說明DeepSeek掌握了訓(xùn)練更大規(guī)模多模態(tài)模型甚至萬億參數(shù)模型的“穩(wěn)定器”。對算力不富裕的國內(nèi)AI圈而言，算法層面的效率提升比購買芯片更具戰(zhàn)略意義。

技術(shù)拼圖已齊，基礎(chǔ)設(shè)施優(yōu)化代碼也已上傳GitHub。梁文鋒此時連續(xù)發(fā)布硬核研究，不只是學(xué)術(shù)交流，更像是發(fā)布會前的技術(shù)路演。

春節(jié)將至萬物閉藏，但也可能是驚雷孕育之時。DeepSeek V4的發(fā)令槍或許已在梁文鋒手中，只待時機(jī)成熟。

本文來自微信公眾號“鳳凰網(wǎng)科技”，作者：姜凡，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

94年AI女將身價40億：MiniMax贠燁祎的造富神話

以GEO為核心，搜索營銷將走向何方？當(dāng)AI主導(dǎo)決策的時代來臨

上交所依規(guī)監(jiān)管：暫停國晟科技相關(guān)投資者賬戶交易

大家居行業(yè)的“輕”與“重”：路徑選擇與發(fā)展思辨

低空產(chǎn)業(yè)迎來訂單爆發(fā)期，行業(yè)進(jìn)入去泡沫化周期

項目推薦