欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

DeepSeek大規(guī)模擴(kuò)招 梁文鋒攜硬核技術(shù)蓄勢待發(fā)

01-15 06:42
春節(jié)檔已提前開啟


摘要:


2025年11月DeepSeek曾開放行政招聘,相關(guān)人士稱是因團(tuán)隊擴(kuò)大需更多行政人員支持。


距離春節(jié)尚有一段時間,國內(nèi)科技圈節(jié)奏似已提前進(jìn)入假期模式,唯有DeepSeek例外。


昨日,DeepSeek突然在GitHub開源新模塊Engram的代碼,并發(fā)布論文《Conditional Memory via Scalable Lookup》;元旦當(dāng)天,還發(fā)布了關(guān)于模型架構(gòu)穩(wěn)定性的《mHC》論文。



兩篇硬核論文作者列表中均有DeepSeek創(chuàng)始人梁文鋒的名字。如此高密度的技術(shù)輸出,并非為湊年底KPI,而是向外界傳遞明確信號:沉默期間,DeepSeek并未停歇,正為下一代模型積蓄力量。


旺盛的招聘需求印證了這一觀點(diǎn)。鳳凰網(wǎng)科技檢索社交媒體信息發(fā)現(xiàn),DeepSeek近期大量招人,放出多個核心技術(shù)崗位,包括深度學(xué)習(xí)研究員(負(fù)責(zé)LLM前沿探索,如預(yù)訓(xùn)練、alignment、codemath等方向)、深度學(xué)習(xí)研發(fā)工程師(LLM預(yù)訓(xùn)練數(shù)據(jù)/搜索策略相關(guān))、大模型全棧工程師(算法與工程并重,參與前沿方向及環(huán)境部署)、全棧開發(fā)工程師、核心系統(tǒng)研發(fā)工程師等。招聘者表示校招、社招、實習(xí)均開放,還有產(chǎn)品、設(shè)計、數(shù)據(jù)百曉生等崗位。


值得注意的是,從梁文鋒此前署名論文的作者名單看,DeepSeek人員穩(wěn)定性高,此次招聘主要是擴(kuò)招需求。多數(shù)崗位可在北京或杭州工作,與此前多需赴杭州不同。2025年11月DeepSeek就曾開放行政招聘,相關(guān)人士稱是團(tuán)隊擴(kuò)大需更多行政伙伴。


如今技術(shù)儲備已足,或許正是梁文鋒帶領(lǐng)團(tuán)隊發(fā)力的時刻。


梁文鋒提前開啟DeepSeek“春節(jié)檔”


DeepSeek的“春節(jié)檔”已提前拉開帷幕。當(dāng)全行業(yè)盤點(diǎn)2025年應(yīng)用層得失時,DeepSeek將目光聚焦于架構(gòu)層。


最新發(fā)布的Engram研究是與北京大學(xué)合作完成的,直指當(dāng)前Transformer架構(gòu)的痛點(diǎn):大模型雖通過MoE實現(xiàn)“條件計算”,卻缺乏原生“條件記憶”,記東西依賴算力模擬檢索。DeepSeek提出的Engram模塊,要為大模型加裝外掛“硬盤”,使其能以O(shè)(1)時間復(fù)雜度調(diào)取知識,無需算力硬抗。


元旦發(fā)布的《mHC:流形約束超連接》中,梁文鋒團(tuán)隊解決了超大規(guī)模模型訓(xùn)練穩(wěn)定性問題。隨著模型增大,傳統(tǒng)殘差連接失效,訓(xùn)練易崩潰。DeepSeek用數(shù)學(xué)方法將神經(jīng)網(wǎng)絡(luò)連接約束在特定流形空間,恢復(fù)信息傳遞穩(wěn)定性。


實驗顯示,在27B參數(shù)混合專家模型上,mHC訓(xùn)練曲線穩(wěn)定,最終損失較基線降低。


DeepSeek團(tuán)隊還為mHC架構(gòu)做了一系列基礎(chǔ)設(shè)施優(yōu)化:用TileLang框架實現(xiàn)融合內(nèi)核,合并分散操作減少內(nèi)存訪問;針對Sinkhorn-Knopp算法設(shè)計專用內(nèi)核,避免存儲開銷;擴(kuò)展DualPipe調(diào)度策略,實現(xiàn)計算與通信重疊。這些優(yōu)化讓mHC在保持性能優(yōu)勢的同時減少額外開銷。


回顧過去一年,DeepSeek在做什么?若說V2和V3證明團(tuán)隊能做好MoE,那這一年DeepSeek試圖回答“除了MoE,大模型還需要什么”。


首先是記憶機(jī)制重構(gòu)。Engram設(shè)計中,DeepSeek發(fā)現(xiàn)U型擴(kuò)展規(guī)律:同等參數(shù)量和計算量下,20%-25%資源分給靜態(tài)記憶(Engram)、剩余給神經(jīng)計算(MoE)時模型效果最佳。這一反直覺發(fā)現(xiàn)表明,少算多記反而更聰明。


數(shù)據(jù)支撐這一理論:Engram擴(kuò)展到270億參數(shù)后,模型背書能力(MMLU)提升3.4,推理能力(BBH)提升5.0,數(shù)學(xué)能力提升2.4,長文本測試準(zhǔn)確率從84.2%升至97.0%。


其次是底層連接修補(bǔ)。mHC研究中,團(tuán)隊展現(xiàn)出工程與數(shù)學(xué)結(jié)合能力,優(yōu)化后27B規(guī)模模型訓(xùn)練損失降低0.021,推理能力提升2.1%。


這一年,DeepSeek未在應(yīng)用層紅海戀戰(zhàn),而是回歸硬核領(lǐng)域夯實Transformer架構(gòu)地基:Engram解決“記不住”“推理慢”問題,mHC解決“長不大”“練不穩(wěn)”問題。


正因如此,一年過去DeepSeek仍處于行業(yè)前列。正如業(yè)內(nèi)人士所言:“DeepSeek這家公司始終在創(chuàng)新。”


DeepSeek V4是否即將面世?


如今高潮或?qū)⒌絹恚芯€索指向同一方向:DeepSeek V4。


疊加兩篇論文看,V4輪廓已清晰。它大概率不是單純堆砌參數(shù)的模型,而是架構(gòu)精巧的“融合體”:具備MoE的計算效率,集成Engram的低成本記憶,底層由mHC架構(gòu)支撐超大規(guī)模訓(xùn)練穩(wěn)定性。


Engram論文提到,該架構(gòu)支持“預(yù)取-重疊”策略,CPU存知識、GPU算邏輯。這意味著V4可能在保持推理成本低廉的同時,擁有更強(qiáng)知識容量和長上下文處理能力,或?qū)︼@存成本受限的行業(yè)形成降維打擊。


此外,mHC的成功驗證說明DeepSeek掌握了訓(xùn)練更大規(guī)模多模態(tài)模型甚至萬億參數(shù)模型的“穩(wěn)定器”。對算力不富裕的國內(nèi)AI圈而言,算法層面的效率提升比購買芯片更具戰(zhàn)略意義。


技術(shù)拼圖已齊,基礎(chǔ)設(shè)施優(yōu)化代碼也已上傳GitHub。梁文鋒此時連續(xù)發(fā)布硬核研究,不只是學(xué)術(shù)交流,更像是發(fā)布會前的技術(shù)路演。


春節(jié)將至萬物閉藏,但也可能是驚雷孕育之時。DeepSeek V4的發(fā)令槍或許已在梁文鋒手中,只待時機(jī)成熟。


本文來自微信公眾號“鳳凰網(wǎng)科技”,作者:姜凡,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com