欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<option id="p5agw"><em id="p5agw"></em></option>

阿里、Kimi、螞蟻集體布局，混合注意力緣何成大模型必選項？

03-21 06:48

理念漸趨一致、技術(shù)實現(xiàn)各有不同，大模型架構(gòu)的新共識正在逐步形成。

近日，小米發(fā)布了Mimo-V2 Pro大模型，再次將混合注意力架構(gòu)推到了行業(yè)關(guān)注的焦點位置。

這款萬億參數(shù)的大模型，采用了1:7的混合注意力比例，在具備接近Claude Opus 4.6能力的同時，API定價僅為后者的五分之一。

實際上，小米在混合注意力架構(gòu)上的探索，延續(xù)了國內(nèi)頭部大模型廠商在效率優(yōu)化方面的技術(shù)共識。過去一段時間里，國內(nèi)多家頭部大模型企業(yè)都展示了他們在混合注意力領(lǐng)域的突破性進展。

今年2月，螞蟻推出了全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型；去年9月，阿里則在下一代模型架構(gòu)Qwen-Next中采用了混合線性注意力。與此同時，月之暗面、MiniMax等企業(yè)也在各自的模型迭代過程中引入了類似的架構(gòu)優(yōu)化方案。

對混合注意力架構(gòu)的探索，幾乎已經(jīng)成為大模型廠商必須面對的課題。不同的只是技術(shù)路徑的選擇，相同的是對效率與性能平衡點的共同追求。

01.頭部企業(yè)布局混合注意力，多條技術(shù)路徑并行發(fā)展

在深度學(xué)習(xí)領(lǐng)域，注意力機制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分，而Softmax一直是主流架構(gòu)的核心注意力計算機制。

這種機制每次計算都會“瀏覽”完整的上下文，精準捕捉詞與詞之間的關(guān)聯(lián)，賦予模型強大的表達能力和細粒度對齊能力。

但它的代價也很明顯：隨著文本長度的增加，其計算量呈平方級增長。同時，它還需要存儲大量的KV緩存，帶來顯存壓力。這在越來越追求推理效率和成本控制的商業(yè)化場景中，暴露出了不足。

面對這一共同挑戰(zhàn)，業(yè)界探索出了三條主要的技術(shù)路徑。

第一條路徑是稀疏注意力（Sparse Attention），其核心思想是通過“少計算”“有重點地計算”來提升效率，代表模型是DeepSeek。

第二條路徑是滑動窗口注意力（Sliding Window Attention），它仍然使用Softmax計算注意力權(quán)重，但只關(guān)注固定窗口內(nèi)的鄰近token，以此提高計算效率。

第三條路徑是線性注意力（Linear Attention）。與其他方案不同，它徹底改寫了Softmax公式，將復(fù)雜度從O(N2)的平方級降至O(N)的近似線性級別，推理成本大幅降低。

不過，這三條路徑都有自身的局限性，而如今業(yè)界集體轉(zhuǎn)向混合架構(gòu)，本質(zhì)上是對單一技術(shù)路徑的修正。

值得關(guān)注的是，越來越多的方案正向混合線性注意力收斂，這是唯一在理論上突破序列長度限制的路徑。它重構(gòu)了注意力的計算范式，這種徹底性既是它的風(fēng)險所在，也是其潛力所在。

02.混合線性注意力，如何成為行業(yè)共識？

在國內(nèi)，已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。

從時間維度來看，2025年初，MiniMax Text-01模型發(fā)布，該模型采用1:7的混合線性注意力，并在456B參數(shù)的模型上實現(xiàn)落地。

此后，MiniMax-M1模型也采用了同款架構(gòu)。當時，MiniMax-M1的團隊判斷，混合架構(gòu)將會成為模型設(shè)計的主流，但仍面臨基礎(chǔ)設(shè)施等方面的瓶頸。

更多關(guān)于混合線性注意力的探索，在2025年下半年集中爆發(fā)。

去年9月，阿里通義實驗室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next，并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標準注意力，實現(xiàn)對長上下文的有效建模。在1:3的混合比例下，其性能可以超過單一架構(gòu)。

阿里的研究團隊發(fā)現(xiàn)，相比常用的滑動窗口注意力，線性注意力擁有更強大的上下文學(xué)習(xí)能力。

同樣在去年9月，螞蟻百靈團隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，驗證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層，驗證了1:7的混合比例。其在高FLOP預(yù)算下的表現(xiàn)，明顯優(yōu)于純Softmax結(jié)構(gòu)。

在這項研究中，螞蟻百靈還進一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子，將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

在推理端，他們開發(fā)了更高效的線性注意力融合算子，進一步提升推理引擎的吞吐。

在架構(gòu)優(yōu)化與高性能算子的協(xié)同作用下，兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約十分之一，相較原有Ring系列成本也下降超過50%。

去年10月，月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention（KDA），這是一個新型的線性注意力模塊，通過細粒度設(shè)計改進了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例，在減少內(nèi)存占用的同時超越了全注意力模型的質(zhì)量。

盡管上述探索已在多個維度驗證了混合線性注意力架構(gòu)的潛力，但大多數(shù)成果仍停留在中小規(guī)模。而在真實應(yīng)用中，大模型需要直面萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

因此，下一步的關(guān)鍵在于：將這些技術(shù)探索推向真正的超大規(guī)模模型，在工業(yè)級應(yīng)用中系統(tǒng)驗證其可靠性、可擴展性與經(jīng)濟價值。

03.萬億模型成試金石，效率與成本的終極驗證

將混合線性注意力架構(gòu)推向萬億參數(shù)量級的工程落地，正在穩(wěn)步推進。

月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力的前景表達了明確信心。他認為線性架構(gòu)是一個非常值得探索的方向，其團隊已在Kimi Linear等項目中積累了大量研究成果。

在下一代模型Kimi K3中，月之暗面計劃在混合線性注意力架構(gòu)的基礎(chǔ)上，引入更多架構(gòu)層面的優(yōu)化。他相信，下一代模型Kimi K3就算沒比K2.5強出10倍，也必然會“強得多”。

同樣押注這一技術(shù)路線的螞蟻百靈團隊，已經(jīng)接連推出兩個萬億參數(shù)大模型。一個是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T，另一個是全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring-2.5-1T。

在前期研究基礎(chǔ)上，螞蟻百靈團隊通過增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合，在進一步壓縮KV緩存的同時，保留了模型的表達能力。

Ling 2.5架構(gòu)采用1:7混合比例，還保留了QK Norm、Partial RoPE等核心機制，確保架構(gòu)遷移過程中模型性能不發(fā)生退化。

在降本增效方面，Ling-2.5-1T僅需約6000個token的平均輸出長度，即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10，生成吞吐量提升至3倍。

上述種種對混合線性注意力架構(gòu)的探索，意義已不止于性能提升本身，而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

試想一下，當推理成本顯著下降、token使用效率持續(xù)優(yōu)化，模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

隨之而來的，是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細算地“按需調(diào)用”模型，而可以將其作為一種默認能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中，實現(xiàn)更廣泛、更深入的效率提升。

大模型在高頻與實時場景中的角色可能因此發(fā)生變化，在搜索、推薦、智能客服等場景中，它們不再只是傳統(tǒng)系統(tǒng)的補充模塊，而是有望扮演核心驅(qū)動引擎，成為如同數(shù)據(jù)庫、操作系統(tǒng)般默認存在的底層基礎(chǔ)設(shè)施。

04.結(jié)語：從堆參數(shù)到拼工程，大模型廣泛落地更近了

混合線性注意力架構(gòu)的探索仍在不斷深化，但這條路徑注定不會一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗證，例如MiniMax在階段性探索后選擇回歸全注意力模型，以優(yōu)先保證復(fù)雜場景下的穩(wěn)定性與可靠性。

不過，更深層的信號已經(jīng)愈發(fā)清晰：大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當行業(yè)逐漸形成共識，決定勝負的將不再只是規(guī)模本身，而是單位算力所能釋放的有效能力。

架構(gòu)層面的細微差異，最終會在企業(yè)級落地中放大為顯著的成本優(yōu)勢與體驗差距，并推動大模型從“可用”邁向“好用”，再走向真正的廣泛普及。

本文來自微信公眾號 “智東西”（ID：zhidxcom），作者：陳駿達，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

2026年Q1音樂節(jié)市場觀察：多場活動取消延期，3月官宣場次同比銳減近半

運動品牌CEO紛紛投身馬拉松賽道

小小內(nèi)存條，壓得手機廠商喘不過氣

騰訊AI Lab撤銷并入混元團隊行業(yè)AI人才流動加速

廣州建筑魚珠灣地標項目陷停滯：百億投資規(guī)劃遇阻，后續(xù)開發(fā)待定

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<option id="uauyo"><li id="uauyo"></li></option>