欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="5yytc"><dl id="5yytc"></dl></li>

<li id="5yytc"></li>

MatX獲5億美元融資：AI芯片如何平衡高吞吐量與低延遲

03-06 06:42

當(dāng)單個token的成本足夠低，AI的大規(guī)模普及才會真正到來。

又一家由Google TPU前團(tuán)隊(duì)成員創(chuàng)立的AI芯片初創(chuàng)公司獲得大額融資。近日，MatX完成5億美元B輪融資，領(lǐng)投方為Jane Street和Situational Awareness LP，Spark Capital、Triatomic Capital、Harpoon Ventures等機(jī)構(gòu)及Andrej Karpathy、Stripe聯(lián)合創(chuàng)始人Patrick Collison與John Collison等科技界人士參投，產(chǎn)投方Alchip和Marvell也參與其中。

此前，MatX曾獲Spark Capital領(lǐng)投的超1億美元A輪融資，Jane Street、Daniel Gross與Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有參投。

MatX認(rèn)為，當(dāng)前AI芯片的核心需求是高吞吐量與低延遲，對應(yīng)的關(guān)鍵指標(biāo)為tokens/每秒和首token時間。其首款芯片已接近開發(fā)完成，預(yù)計(jì)一年內(nèi)完成流片。

這款名為MatX One的芯片采用可拆分脈動陣列架構(gòu)，并結(jié)合SRAM與高帶寬內(nèi)存（HBM）的混合設(shè)計(jì)，旨在同時實(shí)現(xiàn)極低延遲與高吞吐量。

大語言模型專用芯片：兼顧高吞吐量與低延遲的突破

MatX由Reiner Pope和Mike Gunter聯(lián)合創(chuàng)立。Reiner Pope自2017年加入Google“登月工廠”（Moonshot Factory），2019年起擔(dān)任Google TPU技術(shù)主管兼架構(gòu)師，參與兩代TPU設(shè)計(jì)，是第二代芯片的主要負(fù)責(zé)人之一，還曾負(fù)責(zé)Google先進(jìn)模型PaLM的軟件/硬件效率優(yōu)化。

Mike Gunter則深耕芯片底層邏輯電路與系統(tǒng)架構(gòu)，加入Google前聯(lián)合創(chuàng)辦無線通信芯片公司Gossett and Gunter并被Google收購。2008年起，他主導(dǎo)Google首個硬件加速項(xiàng)目，將計(jì)算密集型任務(wù)性價(jià)比提升10倍以上，與Reiner Pope在Moonshot Factory及TPU項(xiàng)目中合作緊密。

2022年ChatGPT發(fā)布前，兩人已預(yù)判大語言模型的發(fā)展浪潮，希望AI硬件能支持超大模型，但Google TPU需兼顧龐大廣告工作負(fù)載，顛覆性創(chuàng)新受限，遂決定離職創(chuàng)業(yè)。

兩位創(chuàng)始人的組合實(shí)現(xiàn)了AI芯片軟硬件的深度融合，目前團(tuán)隊(duì)規(guī)模達(dá)百人，匯聚了從學(xué)習(xí)率調(diào)度到硬件物理層盲插連接等領(lǐng)域的頂尖人才。

從架構(gòu)與存儲雙維度突破性能瓶頸

MatX One是專為大語言模型優(yōu)化的首款芯片，為此犧牲了小模型性能與低并發(fā)工作負(fù)載的適配。其核心技術(shù)包括“可拆分脈動陣列”電路設(shè)計(jì)架構(gòu)及SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)。

當(dāng)前多數(shù)專用AI芯片采用脈動陣列架構(gòu)，通過相同計(jì)算模塊的網(wǎng)絡(luò)連接，高效處理矩陣乘法與卷積運(yùn)算，具有高硅片利用率、突破內(nèi)存墻及良好擴(kuò)展性等優(yōu)勢，Google TPU從第一代起便采用該架構(gòu)。

但傳統(tǒng)脈動陣列的固定尺寸存在局限：僅能高效處理與陣列尺寸匹配的矩陣任務(wù)。而大語言模型計(jì)算場景中矩陣尺寸多變——推理解碼階段處理小型矩陣，MoE模型推理涉及不同專家的小型矩陣計(jì)算，訓(xùn)練階段則處理大型矩陣。固定陣列在處理小型矩陣時會閑置大量計(jì)算單元，處理大型矩陣時需拆分任務(wù)、多次傳輸數(shù)據(jù)，增加延遲。

可拆分脈動陣列的優(yōu)勢在于能動態(tài)拆解為多個小陣列單元，根據(jù)矩陣大小調(diào)整電路配置，提升計(jì)算效率：處理訓(xùn)練階段大型矩陣時不拆分，發(fā)揮大陣列的高能效與高面積效率；處理解碼階段小型矩陣或MoE模型并行計(jì)算時，拆分為多個小陣列，讓所有計(jì)算單元充分工作，避免資源閑置。

存儲架構(gòu)的混合創(chuàng)新

當(dāng)前存儲架構(gòu)有兩大主流路線：英偉達(dá)代表的HBM路線側(cè)重解決吞吐問題，通過高速搬運(yùn)芯片間的權(quán)重與激活值應(yīng)對大模型、長上下文需求；Cerebras Systems代表的片上SRAM路線側(cè)重解決延遲問題，通過片上存儲減少外部訪存，降低單次查詢延遲。

但單一路線存在局限：僅強(qiáng)調(diào)HBM帶寬難以降低延遲，僅強(qiáng)調(diào)片上SRAM則規(guī)模擴(kuò)展受限。MatX采用SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)，MatX One將大部分模型權(quán)重存儲在緊鄰邏輯電路的SRAM中，利用其低延遲特性加快處理速度；KV緩存數(shù)據(jù)則存儲在速度稍慢但容量更大的HBM中，通過緩存計(jì)算結(jié)果減少重復(fù)計(jì)算，節(jié)省時間。

MatX聯(lián)合創(chuàng)始人Reiner Pope在博客中表示：“這些架構(gòu)要素結(jié)合數(shù)值計(jì)算優(yōu)化，使MatX One在大模型計(jì)算中實(shí)現(xiàn)超越現(xiàn)有主流系統(tǒng)的吞吐量，延遲表現(xiàn)與純SRAM優(yōu)先設(shè)計(jì)相當(dāng)。”

在擴(kuò)展性與適應(yīng)性方面，MatX One具備優(yōu)秀的橫向擴(kuò)展互連架構(gòu)，支持?jǐn)?shù)十萬枚芯片組成的計(jì)算集群，且能適配大型MoE模型與稠密模型，模型規(guī)模無上限限制（得益于可拆分脈動陣列）。

除硬件外，Reiner Pope的模型訓(xùn)練經(jīng)驗(yàn)也助力軟件優(yōu)化，MatX正探索將推測解碼與塊狀稀疏注意力機(jī)制融合，從模型層面進(jìn)一步提升計(jì)算效率。據(jù)報(bào)道，MatX與臺積電合作生產(chǎn)芯片，MatX One計(jì)劃2027年開始發(fā)貨。

token成本臨界點(diǎn)：AI大規(guī)模普及的關(guān)鍵

以往AI芯片算力以FLOPS衡量，但推理算力更實(shí)際的指標(biāo)是每秒tokens數(shù)。例如，近期獲1.69億美元融資的AI算力公司Taalas宣稱，其單芯片對Llama 3.1 8B模型的推理速度達(dá)17000 tokens/秒。

每秒tokens數(shù)本質(zhì)是經(jīng)濟(jì)賬：客戶花數(shù)萬美元買芯片，若吞吐量為十萬tokens/秒，每token成本僅為一萬tokens/秒的十分之一。當(dāng)前AI算力的單位經(jīng)濟(jì)學(xué)尚未平衡，不少模型公司陷入“用戶越多虧損越多—限制使用—損害體驗(yàn)”的怪圈。

2025年以來，Agent作為AI應(yīng)用形式日益普及，其token消耗量遠(yuǎn)高于ChatBot：用戶與ChatBot交互幾十次可能消耗10-100萬tokens，而Agent完成復(fù)雜任務(wù)一晚上可能消耗上億tokens。當(dāng)前高級AI模型API價(jià)格較高，這種消耗對用戶和模型公司均難以承受。

當(dāng)token成本足夠低、單位經(jīng)濟(jì)學(xué)平衡時，AI普及將迎來質(zhì)變。如同移動互聯(lián)網(wǎng)時代，網(wǎng)絡(luò)提速降費(fèi)、終端普及后，互聯(lián)網(wǎng)公司邊際成本降低，用戶能免費(fèi)享受優(yōu)質(zhì)服務(wù)，催生微信、抖音等巨型應(yīng)用。

AI時代的普及需要算力基礎(chǔ)設(shè)施各環(huán)節(jié)共同降低token成本，目前雖有進(jìn)展但未達(dá)臨界點(diǎn)。行業(yè)向臨界點(diǎn)邁進(jìn)的過程中，將涌現(xiàn)更多優(yōu)秀創(chuàng)業(yè)公司，值得期待。

本文來自微信公眾號“阿爾法公社”（ID：alphastartups），作者：發(fā)現(xiàn)非凡創(chuàng)業(yè)者的，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

東亞私生飯為何如此極端？從產(chǎn)業(yè)邏輯到制度缺失的深層剖析

國內(nèi)首個硅谷科創(chuàng)展團(tuán)將亮相AWE2026東方樞紐展區(qū)

從FTX前成員到AI投資新貴：24歲的Leopold如何讓2.25億一年暴漲至55億

旭輝商業(yè)再獲南通金沙新天地項(xiàng)目與圓宏集團(tuán)深化合作共筑通州商業(yè)新篇

油氣股暴漲后遇回調(diào)，短期狂歡能否持續(xù)？

項(xiàng)目推薦

<ruby id="ei3cw"></ruby>