欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

阿里、Kimi、螞蟻集體押注,混合注意力從可選項變必答題?

大廠動態(tài)
03-23 15:54

理念趨同、實現(xiàn)各異,大模型架構(gòu)新共識正在形成。

昨天,小米發(fā)布了Mimo-V2 Pro大模型,又一次把混合注意力架構(gòu)推到了行業(yè)的聚光燈下。

 

這款萬億參數(shù)的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同時,API定價僅為后者的1/5。

 

實際上,小米的混合注意力架構(gòu)探索,延續(xù)了國內(nèi)大模型頭部廠商在效率優(yōu)化上的技術(shù)共識。過去一段時間里,國內(nèi)多個大模型頭部玩家都展示了他們在混合注意力方面的突破性進(jìn)展。

 

今年2月,螞蟻推出全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型;去年9月,阿里則在下一代模型架構(gòu)Qwen-Next中采用混合線性注意力。與此同時,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構(gòu)優(yōu)化方案。

 

混合注意力架構(gòu)的探索,已經(jīng)幾乎成為大模型廠商的必答題。不同的只是技術(shù)路徑的選擇,相同的是對效率與性能平衡點的共同追求。

 

01.頭部玩家押注混合注意力,多條技術(shù)路徑并行

 

在深度學(xué)習(xí)中,注意力機(jī)制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分,而Softmax一直是主流架構(gòu)的核心注意力計算機(jī)制。

 

這種機(jī)制每次計算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對齊能力。

 

 

但其代價明顯:隨著文本長度增加,其計算量呈平方級增長。它還需要存儲大量KV緩存,帶來顯存壓力。這在越來越追求推理效率和成本控制的商業(yè)化場景中,展現(xiàn)出不足。

 

面對這一共同挑戰(zhàn),業(yè)界探索出了三條主要的技術(shù)路徑。

 

第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過“少算”、“有重點地算”來提升效率,代表模型是DeepSeek。

 

第二條路徑是滑動窗口注意力(Sliding Window Attention),它仍然使用Softmax計算注意力權(quán)重,但只關(guān)注固定窗口內(nèi)的鄰近token,借此提高計算效率。

 

第三條路徑是線性注意力(Linear Attention)。與其他方案不同,它徹底改寫了Softmax公式,將復(fù)雜度從O(N2)的平方級降至O(N),近似線性級別,推理成本大幅下降。

 

不過,這三條路徑都有自身的局限性,而如今業(yè)界對混合架構(gòu)的集體轉(zhuǎn)向,本質(zhì)上是對單一技術(shù)路徑的修正。

 

值得關(guān)注的是,越來越多方案正向混合線性注意力收斂,這是唯一在理論上突破序列長度限制的路徑。它重構(gòu)了注意力的計算范式,這種徹底性既是它的風(fēng)險所在,也是其潛力所在。

 

02.混合線性注意力,如何成為行業(yè)共識?

 

在國內(nèi),已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。

 

按時間維度來看,2025年初,MiniMax Text-01模型發(fā)布,這一模型采用1:7的混合線性注意力,并在456B參數(shù)的模型上實現(xiàn)落地。

 

此后,MiniMax-M1模型也采用了同款架構(gòu)。當(dāng)時,MiniMax-M1的團(tuán)隊判斷,混合架構(gòu)將會成為模型設(shè)計的主流,但仍面臨基礎(chǔ)設(shè)施等維度的瓶頸。

 

 

更多混合線性注意力的探索,在2025年下半年爆發(fā)。

 

去年9月,阿里通義實驗室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標(biāo)準(zhǔn)注意力,實現(xiàn)長上下文的有效建模。在1:3的混合比例下,其性能可以超過單一架構(gòu)。

 

阿里的研究團(tuán)隊發(fā)現(xiàn),相比常用的滑動窗口注意力,線性注意力擁有更強(qiáng)大的上下文學(xué)習(xí)能力。

 

 

同樣在去年9月,螞蟻百靈團(tuán)隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

 

這兩款模型采用了更多的線性注意力層,驗證了1:7的混合比例。其在高FLOP預(yù)算下表現(xiàn),明顯優(yōu)于純Softmax結(jié)構(gòu)。

 

在這項研究中,螞蟻百靈還進(jìn)一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子,將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

 

 

在推理端,他們開發(fā)了更高效的線性注意力融合算子,進(jìn)一步提升推理引擎的吞吐。

 

架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本也下降超過50%。

 

去年10月,月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個新型的線性注意力模塊,通過細(xì)粒度設(shè)計改進(jìn)了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例,在減少內(nèi)存占用的同時超越了全注意力模型的質(zhì)量。

 

 

盡管上述探索已在多維度驗證了混合線性注意力架構(gòu)的潛力,但大多數(shù)成果仍停留在中小規(guī)模。而在真實應(yīng)用中,大模型需要直面萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

 

因此,下一步的關(guān)鍵在于:將這些技術(shù)探索推向真正的超大規(guī)模模型,在工業(yè)級應(yīng)用中系統(tǒng)驗證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價值。

 

03.萬億模型成試金石,效率與成本的終極驗證

 

將混合線性注意力架構(gòu)推向萬億參數(shù)量級的工程落地,正在穩(wěn)步推進(jìn)。

 

月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力的前景表達(dá)了明確信心。他認(rèn)為線性架構(gòu)是一個非常值得探索的方向,其團(tuán)隊已在Kimi Linear等項目中積累了大量研究。

 

在下一代模型Kimi K3中,月之暗面計劃在混合線性注意力架構(gòu)的基礎(chǔ)上,引入更多架構(gòu)層面的優(yōu)化。他相信,下一代模型Kimi K3就算沒比K2.5強(qiáng)出10倍,也必然會“強(qiáng)得多”。

 

同樣押注這一技術(shù)路線的螞蟻百靈團(tuán)隊,已經(jīng)接連交出兩個萬億參數(shù)大模型。一個是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T,另一個是全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring-2.5-1T。

 

在前期研究基礎(chǔ)上,螞蟻百靈團(tuán)隊通過增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合,在進(jìn)一步壓縮KV緩存的同時,保留了模型的表達(dá)能力。

 

Ling 2.5架構(gòu)采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機(jī)制,確保架構(gòu)遷移過程中模型性能不發(fā)生退化。

 

 

在降本增效方面,Ling-2.5-1T僅需約6000個token的平均輸出長度,即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量提升至3倍。

 

上述種種對混合線性注意力架構(gòu)的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

 

試想一下,當(dāng)推理成本顯著下降、token使用效率持續(xù)優(yōu)化,模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

 

隨之而來的,是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細(xì)算地“按需調(diào)用”模型,而可以將其作為一種默認(rèn)能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中,實現(xiàn)更廣泛、更深入的效率提升。

 

大模型在高頻與實時場景中的角色可能因此發(fā)生變化,在搜索、推薦、智能客服等場景中,它們不再只是傳統(tǒng)系統(tǒng)的補充模塊,而是有望扮演核心驅(qū)動引擎,成為如同數(shù)據(jù)庫、操作系統(tǒng)般默認(rèn)存在的底層基礎(chǔ)設(shè)施。

 

04.結(jié)語:從堆參數(shù)到拼工程,大模型廣泛落地更近了

 

混合線性注意力架構(gòu)的探索仍在不斷深化,但這條路徑注定不會一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優(yōu)先保證復(fù)雜場景下的穩(wěn)定性與可靠性。

 

不過,更深層的信號已經(jīng)愈發(fā)清晰:大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當(dāng)行業(yè)逐漸形成共識,決定勝負(fù)的將不再只是規(guī)模本身,而是單位算力所能釋放的有效能力。

 

架構(gòu)層面的細(xì)微差異,最終會在企業(yè)級落地中放大為顯著的成本優(yōu)勢與體驗差距,并推動大模型從“可用”邁向“好用”,再走向真正的廣泛普及。

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com