欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

阿里、Kimi、螞蟻集體布局,混合注意力緣何成大模型必選項?

03-21 06:48
理念漸趨一致、技術(shù)實現(xiàn)各有不同,大模型架構(gòu)的新共識正在逐步形成。

近日,小米發(fā)布了Mimo-V2 Pro大模型,再次將混合注意力架構(gòu)推到了行業(yè)關(guān)注的焦點位置。


這款萬億參數(shù)的大模型,采用了1:7的混合注意力比例,在具備接近Claude Opus 4.6能力的同時,API定價僅為后者的五分之一。


實際上,小米在混合注意力架構(gòu)上的探索,延續(xù)了國內(nèi)頭部大模型廠商在效率優(yōu)化方面的技術(shù)共識。過去一段時間里,國內(nèi)多家頭部大模型企業(yè)都展示了他們在混合注意力領(lǐng)域的突破性進展。


今年2月,螞蟻推出了全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型;去年9月,阿里則在下一代模型架構(gòu)Qwen-Next中采用了混合線性注意力。與此同時,月之暗面、MiniMax等企業(yè)也在各自的模型迭代過程中引入了類似的架構(gòu)優(yōu)化方案。


對混合注意力架構(gòu)的探索,幾乎已經(jīng)成為大模型廠商必須面對的課題。不同的只是技術(shù)路徑的選擇,相同的是對效率與性能平衡點的共同追求。


01.頭部企業(yè)布局混合注意力,多條技術(shù)路徑并行發(fā)展


在深度學(xué)習(xí)領(lǐng)域,注意力機制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分,而Softmax一直是主流架構(gòu)的核心注意力計算機制。


這種機制每次計算都會“瀏覽”完整的上下文,精準捕捉詞與詞之間的關(guān)聯(lián),賦予模型強大的表達能力和細粒度對齊能力。



但它的代價也很明顯:隨著文本長度的增加,其計算量呈平方級增長。同時,它還需要存儲大量的KV緩存,帶來顯存壓力。這在越來越追求推理效率和成本控制的商業(yè)化場景中,暴露出了不足。


面對這一共同挑戰(zhàn),業(yè)界探索出了三條主要的技術(shù)路徑。


第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過“少計算”“有重點地計算”來提升效率,代表模型是DeepSeek。


第二條路徑是滑動窗口注意力(Sliding Window Attention),它仍然使用Softmax計算注意力權(quán)重,但只關(guān)注固定窗口內(nèi)的鄰近token,以此提高計算效率。


第三條路徑是線性注意力(Linear Attention)。與其他方案不同,它徹底改寫了Softmax公式,將復(fù)雜度從O(N2)的平方級降至O(N)的近似線性級別,推理成本大幅降低。


不過,這三條路徑都有自身的局限性,而如今業(yè)界集體轉(zhuǎn)向混合架構(gòu),本質(zhì)上是對單一技術(shù)路徑的修正。


值得關(guān)注的是,越來越多的方案正向混合線性注意力收斂,這是唯一在理論上突破序列長度限制的路徑。它重構(gòu)了注意力的計算范式,這種徹底性既是它的風(fēng)險所在,也是其潛力所在。


02.混合線性注意力,如何成為行業(yè)共識?


在國內(nèi),已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。


從時間維度來看,2025年初,MiniMax Text-01模型發(fā)布,該模型采用1:7的混合線性注意力,并在456B參數(shù)的模型上實現(xiàn)落地。


此后,MiniMax-M1模型也采用了同款架構(gòu)。當時,MiniMax-M1的團隊判斷,混合架構(gòu)將會成為模型設(shè)計的主流,但仍面臨基礎(chǔ)設(shè)施等方面的瓶頸。



更多關(guān)于混合線性注意力的探索,在2025年下半年集中爆發(fā)。


去年9月,阿里通義實驗室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標準注意力,實現(xiàn)對長上下文的有效建模。在1:3的混合比例下,其性能可以超過單一架構(gòu)。


阿里的研究團隊發(fā)現(xiàn),相比常用的滑動窗口注意力,線性注意力擁有更強大的上下文學(xué)習(xí)能力。



同樣在去年9月,螞蟻百靈團隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。


這兩款模型采用了更多的線性注意力層,驗證了1:7的混合比例。其在高FLOP預(yù)算下的表現(xiàn),明顯優(yōu)于純Softmax結(jié)構(gòu)。


在這項研究中,螞蟻百靈還進一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子,將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。



在推理端,他們開發(fā)了更高效的線性注意力融合算子,進一步提升推理引擎的吞吐。


在架構(gòu)優(yōu)化與高性能算子的協(xié)同作用下,兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約十分之一,相較原有Ring系列成本也下降超過50%。


去年10月,月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個新型的線性注意力模塊,通過細粒度設(shè)計改進了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例,在減少內(nèi)存占用的同時超越了全注意力模型的質(zhì)量。



盡管上述探索已在多個維度驗證了混合線性注意力架構(gòu)的潛力,但大多數(shù)成果仍停留在中小規(guī)模。而在真實應(yīng)用中,大模型需要直面萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。


因此,下一步的關(guān)鍵在于:將這些技術(shù)探索推向真正的超大規(guī)模模型,在工業(yè)級應(yīng)用中系統(tǒng)驗證其可靠性、可擴展性與經(jīng)濟價值。


03.萬億模型成試金石,效率與成本的終極驗證


將混合線性注意力架構(gòu)推向萬億參數(shù)量級的工程落地,正在穩(wěn)步推進。


月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力的前景表達了明確信心。他認為線性架構(gòu)是一個非常值得探索的方向,其團隊已在Kimi Linear等項目中積累了大量研究成果。


在下一代模型Kimi K3中,月之暗面計劃在混合線性注意力架構(gòu)的基礎(chǔ)上,引入更多架構(gòu)層面的優(yōu)化。他相信,下一代模型Kimi K3就算沒比K2.5強出10倍,也必然會“強得多”。


同樣押注這一技術(shù)路線的螞蟻百靈團隊,已經(jīng)接連推出兩個萬億參數(shù)大模型。一個是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T,另一個是全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring-2.5-1T。


在前期研究基礎(chǔ)上,螞蟻百靈團隊通過增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合,在進一步壓縮KV緩存的同時,保留了模型的表達能力。


Ling 2.5架構(gòu)采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機制,確保架構(gòu)遷移過程中模型性能不發(fā)生退化。



在降本增效方面,Ling-2.5-1T僅需約6000個token的平均輸出長度,即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量提升至3倍。


上述種種對混合線性注意力架構(gòu)的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。


試想一下,當推理成本顯著下降、token使用效率持續(xù)優(yōu)化,模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。


隨之而來的,是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細算地“按需調(diào)用”模型,而可以將其作為一種默認能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中,實現(xiàn)更廣泛、更深入的效率提升。


大模型在高頻與實時場景中的角色可能因此發(fā)生變化,在搜索、推薦、智能客服等場景中,它們不再只是傳統(tǒng)系統(tǒng)的補充模塊,而是有望扮演核心驅(qū)動引擎,成為如同數(shù)據(jù)庫、操作系統(tǒng)般默認存在的底層基礎(chǔ)設(shè)施。


04.結(jié)語:從堆參數(shù)到拼工程,大模型廣泛落地更近了


混合線性注意力架構(gòu)的探索仍在不斷深化,但這條路徑注定不會一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優(yōu)先保證復(fù)雜場景下的穩(wěn)定性與可靠性。


不過,更深層的信號已經(jīng)愈發(fā)清晰:大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當行業(yè)逐漸形成共識,決定勝負的將不再只是規(guī)模本身,而是單位算力所能釋放的有效能力。


架構(gòu)層面的細微差異,最終會在企業(yè)級落地中放大為顯著的成本優(yōu)勢與體驗差距,并推動大模型從“可用”邁向“好用”,再走向真正的廣泛普及。


本文來自微信公眾號 “智東西”(ID:zhidxcom),作者:陳駿達,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com