欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<dd id="xmbs0"><object id="xmbs0"></object></dd>

阿里、Kimi、螞蟻集體押注，混合注意力從可選項變必答題？

大廠動態(tài)

03-23 15:54

理念趨同、實現(xiàn)各異，大模型架構(gòu)新共識正在形成。

昨天，小米發(fā)布了Mimo-V2 Pro大模型，又一次把混合注意力架構(gòu)推到了行業(yè)的聚光燈下。

這款萬億參數(shù)的大模型，采用了1:7的混合注意力比例，在提供接近Claude Opus 4.6能力的同時，API定價僅為后者的1/5。

實際上，小米的混合注意力架構(gòu)探索，延續(xù)了國內(nèi)大模型頭部廠商在效率優(yōu)化上的技術(shù)共識。過去一段時間里，國內(nèi)多個大模型頭部玩家都展示了他們在混合注意力方面的突破性進(jìn)展。

今年2月，螞蟻推出全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型；去年9月，阿里則在下一代模型架構(gòu)Qwen-Next中采用混合線性注意力。與此同時，月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構(gòu)優(yōu)化方案。

混合注意力架構(gòu)的探索，已經(jīng)幾乎成為大模型廠商的必答題。不同的只是技術(shù)路徑的選擇，相同的是對效率與性能平衡點的共同追求。

01.頭部玩家押注混合注意力，多條技術(shù)路徑并行

在深度學(xué)習(xí)中，注意力機(jī)制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分，而Softmax一直是主流架構(gòu)的核心注意力計算機(jī)制。

這種機(jī)制每次計算都“翻閱”完整上下文，精準(zhǔn)捕捉詞與詞的關(guān)聯(lián)，賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對齊能力。

但其代價明顯：隨著文本長度增加，其計算量呈平方級增長。它還需要存儲大量KV緩存，帶來顯存壓力。這在越來越追求推理效率和成本控制的商業(yè)化場景中，展現(xiàn)出不足。

面對這一共同挑戰(zhàn)，業(yè)界探索出了三條主要的技術(shù)路徑。

第一條路徑是稀疏注意力（Sparse Attention），其核心思想是通過“少算”、“有重點地算”來提升效率，代表模型是DeepSeek。

第二條路徑是滑動窗口注意力（Sliding Window Attention），它仍然使用Softmax計算注意力權(quán)重，但只關(guān)注固定窗口內(nèi)的鄰近token，借此提高計算效率。

第三條路徑是線性注意力（Linear Attention）。與其他方案不同，它徹底改寫了Softmax公式，將復(fù)雜度從O(N2)的平方級降至O(N)，近似線性級別，推理成本大幅下降。

不過，這三條路徑都有自身的局限性，而如今業(yè)界對混合架構(gòu)的集體轉(zhuǎn)向，本質(zhì)上是對單一技術(shù)路徑的修正。

值得關(guān)注的是，越來越多方案正向混合線性注意力收斂，這是唯一在理論上突破序列長度限制的路徑。它重構(gòu)了注意力的計算范式，這種徹底性既是它的風(fēng)險所在，也是其潛力所在。

02.混合線性注意力，如何成為行業(yè)共識？

在國內(nèi)，已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。

按時間維度來看，2025年初，MiniMax Text-01模型發(fā)布，這一模型采用1:7的混合線性注意力，并在456B參數(shù)的模型上實現(xiàn)落地。

此后，MiniMax-M1模型也采用了同款架構(gòu)。當(dāng)時，MiniMax-M1的團(tuán)隊判斷，混合架構(gòu)將會成為模型設(shè)計的主流，但仍面臨基礎(chǔ)設(shè)施等維度的瓶頸。

更多混合線性注意力的探索，在2025年下半年爆發(fā)。

去年9月，阿里通義實驗室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next，并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標(biāo)準(zhǔn)注意力，實現(xiàn)長上下文的有效建模。在1:3的混合比例下，其性能可以超過單一架構(gòu)。

阿里的研究團(tuán)隊發(fā)現(xiàn)，相比常用的滑動窗口注意力，線性注意力擁有更強(qiáng)大的上下文學(xué)習(xí)能力。

同樣在去年9月，螞蟻百靈團(tuán)隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，驗證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層，驗證了1:7的混合比例。其在高FLOP預(yù)算下表現(xiàn)，明顯優(yōu)于純Softmax結(jié)構(gòu)。

在這項研究中，螞蟻百靈還進(jìn)一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子，將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

在推理端，他們開發(fā)了更高效的線性注意力融合算子，進(jìn)一步提升推理引擎的吞吐。

架構(gòu)優(yōu)化與高性能算子協(xié)同之下，兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約1/10，相較原有Ring系列成本也下降超過50%。

去年10月，月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention（KDA），這是一個新型的線性注意力模塊，通過細(xì)粒度設(shè)計改進(jìn)了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例，在減少內(nèi)存占用的同時超越了全注意力模型的質(zhì)量。

盡管上述探索已在多維度驗證了混合線性注意力架構(gòu)的潛力，但大多數(shù)成果仍停留在中小規(guī)模。而在真實應(yīng)用中，大模型需要直面萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

因此，下一步的關(guān)鍵在于：將這些技術(shù)探索推向真正的超大規(guī)模模型，在工業(yè)級應(yīng)用中系統(tǒng)驗證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價值。

03.萬億模型成試金石，效率與成本的終極驗證

將混合線性注意力架構(gòu)推向萬億參數(shù)量級的工程落地，正在穩(wěn)步推進(jìn)。

月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力的前景表達(dá)了明確信心。他認(rèn)為線性架構(gòu)是一個非常值得探索的方向，其團(tuán)隊已在Kimi Linear等項目中積累了大量研究。

在下一代模型Kimi K3中，月之暗面計劃在混合線性注意力架構(gòu)的基礎(chǔ)上，引入更多架構(gòu)層面的優(yōu)化。他相信，下一代模型Kimi K3就算沒比K2.5強(qiáng)出10倍，也必然會“強(qiáng)得多”。

同樣押注這一技術(shù)路線的螞蟻百靈團(tuán)隊，已經(jīng)接連交出兩個萬億參數(shù)大模型。一個是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T，另一個是全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring-2.5-1T。

在前期研究基礎(chǔ)上,螞蟻百靈團(tuán)隊通過增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合，在進(jìn)一步壓縮KV緩存的同時，保留了模型的表達(dá)能力。

Ling 2.5架構(gòu)采用1:7混合比例，還保留了QK Norm、Partial RoPE等核心機(jī)制，確保架構(gòu)遷移過程中模型性能不發(fā)生退化。

在降本增效方面，Ling-2.5-1T僅需約6000個token的平均輸出長度，即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10，生成吞吐量提升至3倍。

上述種種對混合線性注意力架構(gòu)的探索，意義已不止于性能提升本身，而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

試想一下，當(dāng)推理成本顯著下降、token使用效率持續(xù)優(yōu)化，模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

隨之而來的，是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細(xì)算地“按需調(diào)用”模型，而可以將其作為一種默認(rèn)能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中，實現(xiàn)更廣泛、更深入的效率提升。

大模型在高頻與實時場景中的角色可能因此發(fā)生變化，在搜索、推薦、智能客服等場景中，它們不再只是傳統(tǒng)系統(tǒng)的補充模塊，而是有望扮演核心驅(qū)動引擎，成為如同數(shù)據(jù)庫、操作系統(tǒng)般默認(rèn)存在的底層基礎(chǔ)設(shè)施。

04.結(jié)語：從堆參數(shù)到拼工程，大模型廣泛落地更近了

混合線性注意力架構(gòu)的探索仍在不斷深化，但這條路徑注定不會一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗證，例如MiniMax在階段性探索后選擇回歸全注意力模型，以優(yōu)先保證復(fù)雜場景下的穩(wěn)定性與可靠性。

不過，更深層的信號已經(jīng)愈發(fā)清晰：大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當(dāng)行業(yè)逐漸形成共識，決定勝負(fù)的將不再只是規(guī)模本身，而是單位算力所能釋放的有效能力。

架構(gòu)層面的細(xì)微差異，最終會在企業(yè)級落地中放大為顯著的成本優(yōu)勢與體驗差距，并推動大模型從“可用”邁向“好用”，再走向真正的廣泛普及。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

對高價研學(xué)祛魅的中產(chǎn)，帶娃涌入工廠流水線

市值超495億，湖北孝感首富收獲一個IPO

一年花掉一輛保時捷，中年人為什么沉迷“打鳥”？

華強(qiáng)北一對姐弟，半年猛賺400億；鬧大了！大疆正式起訴影石｜老板早知道

盧俊卿：中小企業(yè)如何利用應(yīng)用場景參與AI升級

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<button id="lkhai"></button>

<center id="lkhai"></center>