欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

馬斯克點(diǎn)贊背后:Kimi團(tuán)隊(duì)挑戰(zhàn)Transformer十年未變的核心組件

03-18 06:42

科技博主Avi Chawla在X平臺(tái)發(fā)布長文,深度解析月之暗面Kimi團(tuán)隊(duì)最新技術(shù)報(bào)告。不久后,馬斯克在評(píng)論區(qū)留言:“月之暗面做出了令人印象深刻的成果”(Impressive work from Kimi.)



馬斯克在AI領(lǐng)域以言辭犀利聞名,曾公開批評(píng)Anthropic和OpenAI,甚至調(diào)侃Anthropic的圖標(biāo)設(shè)計(jì)。近期他的xAI團(tuán)隊(duì)正經(jīng)歷重組,多位華人聯(lián)合創(chuàng)始人離職,Grok模型表現(xiàn)也未達(dá)預(yù)期。在此背景下,他主動(dòng)肯定中國AI公司的技術(shù)成果,實(shí)屬罕見。


值得注意的是,馬斯克點(diǎn)贊的并非具體模型,而是Kimi團(tuán)隊(duì)提出的一種全新架構(gòu)思路——他們?cè)噲D替換Transformer中自2015年起就幾乎未被改動(dòng)的核心組件。這篇純架構(gòu)層面的技術(shù)論文,雖難被普通用戶直接感知,卻觸及了深度學(xué)習(xí)的底層基石。


01


月之暗面的技術(shù)突破:重構(gòu)殘差連接


要理解這項(xiàng)研究的意義,需先明確技術(shù)背景:當(dāng)前主流大語言模型(如GPT、Claude、豆包、DeepSeek及Kimi K2.5)均基于Transformer架構(gòu)。Transformer能實(shí)現(xiàn)數(shù)十層甚至上百層的穩(wěn)定訓(xùn)練,關(guān)鍵在于“殘差連接(Residual Connection)”機(jī)制。


殘差連接的原理簡潔高效:每一層網(wǎng)絡(luò)計(jì)算后,將輸出與輸入相加再傳遞至下一層。這種設(shè)計(jì)使梯度在反向傳播時(shí)能沿“高速通道”直達(dá)底層,避免因?qū)訑?shù)過深導(dǎo)致梯度消失。該機(jī)制源自何愷明2015年參與的ResNet論文,后被Transformer完整沿用。


然而,這種“加法”存在固有缺陷:所有層的輸出權(quán)重完全平等(均為1),模型無法判斷不同層信息的重要性。隨著層數(shù)增加,早期層信息逐漸被稀釋,后期層需輸出更大數(shù)值才能產(chǎn)生影響,反而加劇了模型不穩(wěn)定性——這一現(xiàn)象被稱為“PreNorm稀釋”。


形象地說,這就像微信群討論晚餐選擇時(shí),所有人發(fā)言權(quán)重相同,群主需逐條閱讀所有消息,越往后越容易遺忘前面的內(nèi)容。


Kimi團(tuán)隊(duì)發(fā)現(xiàn),這一問題與早期RNN的困境存在結(jié)構(gòu)對(duì)稱性。RNN在時(shí)間維度上固定權(quán)重累加,導(dǎo)致長距離依賴難以捕捉;而Transformer通過注意力機(jī)制動(dòng)態(tài)選擇關(guān)注序列位置,解決了這一問題。但在深度維度上,類似問題仍未解決——各層輸出仍被等權(quán)相加,模型無法根據(jù)輸入選擇性提取信息。


Kimi團(tuán)隊(duì)指出,標(biāo)準(zhǔn)殘差連接本質(zhì)是“深度維度的線性注意力”,他們的目標(biāo)是將其升級(jí)為“深度維度的softmax注意力”。為此,團(tuán)隊(duì)提出“全注意力殘差(Full Attention Residuals)”方案:



具體而言,為每一層賦予可學(xué)習(xí)的查詢向量,對(duì)之前所有層的輸出進(jìn)行注意力計(jì)算,生成歸一化權(quán)重。當(dāng)前層輸入不再是簡單求和,而是基于這組輸入相關(guān)的權(quán)重進(jìn)行加權(quán)組合——不同token在同一層可能從不同歷史層提取不同信息。


類比微信群場(chǎng)景:現(xiàn)在群主無需逐條閱讀消息,助手會(huì)標(biāo)記“重點(diǎn)內(nèi)容”,不同話題對(duì)應(yīng)不同重點(diǎn),大幅提升效率。


但全注意力殘差存在工程瓶頸:大規(guī)模訓(xùn)練中,流水線并行和激活重計(jì)算會(huì)導(dǎo)致歷史層輸出無法保留,若要實(shí)現(xiàn)全注意力,需存儲(chǔ)所有層輸出并跨階段傳輸,內(nèi)存與通信成本過高。為此,Kimi團(tuán)隊(duì)提出“塊注意力殘差(Block Attention Residuals)”:



將所有層劃分為若干塊,塊內(nèi)仍用傳統(tǒng)殘差連接求和,塊間則通過注意力機(jī)制選擇性聚合。需存儲(chǔ)的不再是每層輸出,而是每個(gè)塊的匯總表示,內(nèi)存占用從O(Ld)降至O(Nd)(N通常為8左右)。


這相當(dāng)于將微信群分為8個(gè)小組,每組先內(nèi)部總結(jié),群主只需查看8條小組結(jié)論即可。


團(tuán)隊(duì)還進(jìn)行了工程優(yōu)化:跨階段緩存消除流水線并行的冗余傳輸,兩階段推理策略通過在線softmax分?jǐn)偪鐗K注意力計(jì)算。最終,注意力殘差作為標(biāo)準(zhǔn)殘差連接的替代品,訓(xùn)練額外開銷極小,推理延遲增加不到2%。


實(shí)驗(yàn)驗(yàn)證顯示:scaling law實(shí)驗(yàn)表明,注意力機(jī)制在所有計(jì)算預(yù)算下均優(yōu)于基線,效果相當(dāng)于用1.25倍計(jì)算量訓(xùn)練的基線模型;在480億參數(shù)模型的實(shí)戰(zhàn)測(cè)試中(超萬億詞預(yù)訓(xùn)練),塊注意力殘差版本在科學(xué)問答、數(shù)學(xué)推理、代碼生成等主流任務(wù)中全面超越原版。



訓(xùn)練動(dòng)態(tài)分析證實(shí),塊注意力殘差有效緩解了PreNorm稀釋:各層輸出幅度保持穩(wěn)定,梯度分布更均勻,避免了淺層梯度過大、深層梯度過小的失衡。此外,論文通過結(jié)構(gòu)化矩陣分析證明,標(biāo)準(zhǔn)殘差連接及Highway Networks、DeepNet等變體,本質(zhì)上都是深度維度線性注意力的特例——自2015年ResNet以來,殘差連接領(lǐng)域未有實(shí)質(zhì)性突破,而Kimi團(tuán)隊(duì)的方案是首個(gè)兼具理論依據(jù)、可大規(guī)模部署且成本可控的創(chuàng)新。這正是馬斯克點(diǎn)贊的核心原因。


02


融資節(jié)奏、爭議與馬斯克點(diǎn)贊的輿論影響


月之暗面正處于上市關(guān)鍵期:2025年12月完成5億美元C輪融資(投后估值43億美元);2026年2月完成超7億美元C+輪融資(阿里、騰訊等領(lǐng)投,估值破100億美元);3月最新投前估值達(dá)180億美元,新一輪10億美元融資推進(jìn)中,3個(gè)月估值增長超4倍。


收入方面,Kimi K2.5發(fā)布不到一個(gè)月,累計(jì)收入已超2025年全年;據(jù)Stripe數(shù)據(jù),Kimi個(gè)人訂閱訂單1月環(huán)比增長8280%,2月再增123.8%,進(jìn)入Stripe全球榜單前十。


但融資順利的同時(shí),爭議也隨之而來。


近日,OpenClaw創(chuàng)始人彼得·斯坦伯格公開質(zhì)疑月之暗面的Kimi Claw產(chǎn)品。起因是月之暗面推出的Kimi Claw云端一鍵部署服務(wù),與OpenClaw“本地優(yōu)先”的設(shè)計(jì)理念相?!狾penClaw強(qiáng)調(diào)agent運(yùn)行于用戶設(shè)備,數(shù)據(jù)不經(jīng)過第三方;而Kimi Claw將數(shù)據(jù)遷移至月之暗面服務(wù)器,安全與隱私風(fēng)險(xiǎn)等級(jí)截然不同。



斯坦伯格的質(zhì)疑在社區(qū)引發(fā)反響,最初詢問的用戶表示因安全顧慮暫不使用該產(chǎn)品。對(duì)于高速融資的月之暗面而言,海外技術(shù)社區(qū)的負(fù)面評(píng)價(jià)可能帶來壓力。


恰在此時(shí),馬斯克的點(diǎn)贊出現(xiàn)。盡管兩件事無直接關(guān)聯(lián),但輿論場(chǎng)中常被并置解讀:一邊是產(chǎn)品安全質(zhì)疑,一邊是技術(shù)成果獲頂級(jí)人物認(rèn)可。對(duì)融資中的月之暗面而言,后者的時(shí)機(jī)尤為關(guān)鍵——資本市場(chǎng)中,頂級(jí)人物的認(rèn)可往往比分析報(bào)告更具說服力。


當(dāng)然,不應(yīng)過度解讀馬斯克的推文。他在X上互動(dòng)頻繁,對(duì)技術(shù)話題常隨手點(diǎn)評(píng),“impressive”不代表投資或技術(shù)采用意向。但不可否認(rèn),這條點(diǎn)贊讓更多人關(guān)注到這篇論文,一個(gè)十一年未被觸碰的組件被重新審視,未來走向值得期待。


本文來自微信公眾號(hào)“字母AI”,作者:苗正,編輯:王靖,36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com