MatX獲5億美元融資:AI芯片如何平衡高吞吐量與低延遲
又一家由Google TPU前團(tuán)隊(duì)成員創(chuàng)立的AI芯片初創(chuàng)公司獲得大額融資。近日,MatX完成5億美元B輪融資,領(lǐng)投方為Jane Street和Situational Awareness LP,Spark Capital、Triatomic Capital、Harpoon Ventures等機(jī)構(gòu)及Andrej Karpathy、Stripe聯(lián)合創(chuàng)始人Patrick Collison與John Collison等科技界人士參投,產(chǎn)投方Alchip和Marvell也參與其中。
此前,MatX曾獲Spark Capital領(lǐng)投的超1億美元A輪融資,Jane Street、Daniel Gross與Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有參投。
MatX認(rèn)為,當(dāng)前AI芯片的核心需求是高吞吐量與低延遲,對應(yīng)的關(guān)鍵指標(biāo)為tokens/每秒和首token時間。其首款芯片已接近開發(fā)完成,預(yù)計(jì)一年內(nèi)完成流片。
這款名為MatX One的芯片采用可拆分脈動陣列架構(gòu),并結(jié)合SRAM與高帶寬內(nèi)存(HBM)的混合設(shè)計(jì),旨在同時實(shí)現(xiàn)極低延遲與高吞吐量。
大語言模型專用芯片:兼顧高吞吐量與低延遲的突破
MatX由Reiner Pope和Mike Gunter聯(lián)合創(chuàng)立。Reiner Pope自2017年加入Google“登月工廠”(Moonshot Factory),2019年起擔(dān)任Google TPU技術(shù)主管兼架構(gòu)師,參與兩代TPU設(shè)計(jì),是第二代芯片的主要負(fù)責(zé)人之一,還曾負(fù)責(zé)Google先進(jìn)模型PaLM的軟件/硬件效率優(yōu)化。
Mike Gunter則深耕芯片底層邏輯電路與系統(tǒng)架構(gòu),加入Google前聯(lián)合創(chuàng)辦無線通信芯片公司Gossett and Gunter并被Google收購。2008年起,他主導(dǎo)Google首個硬件加速項(xiàng)目,將計(jì)算密集型任務(wù)性價(jià)比提升10倍以上,與Reiner Pope在Moonshot Factory及TPU項(xiàng)目中合作緊密。
2022年ChatGPT發(fā)布前,兩人已預(yù)判大語言模型的發(fā)展浪潮,希望AI硬件能支持超大模型,但Google TPU需兼顧龐大廣告工作負(fù)載,顛覆性創(chuàng)新受限,遂決定離職創(chuàng)業(yè)。

兩位創(chuàng)始人的組合實(shí)現(xiàn)了AI芯片軟硬件的深度融合,目前團(tuán)隊(duì)規(guī)模達(dá)百人,匯聚了從學(xué)習(xí)率調(diào)度到硬件物理層盲插連接等領(lǐng)域的頂尖人才。
從架構(gòu)與存儲雙維度突破性能瓶頸
MatX One是專為大語言模型優(yōu)化的首款芯片,為此犧牲了小模型性能與低并發(fā)工作負(fù)載的適配。其核心技術(shù)包括“可拆分脈動陣列”電路設(shè)計(jì)架構(gòu)及SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)。
當(dāng)前多數(shù)專用AI芯片采用脈動陣列架構(gòu),通過相同計(jì)算模塊的網(wǎng)絡(luò)連接,高效處理矩陣乘法與卷積運(yùn)算,具有高硅片利用率、突破內(nèi)存墻及良好擴(kuò)展性等優(yōu)勢,Google TPU從第一代起便采用該架構(gòu)。
但傳統(tǒng)脈動陣列的固定尺寸存在局限:僅能高效處理與陣列尺寸匹配的矩陣任務(wù)。而大語言模型計(jì)算場景中矩陣尺寸多變——推理解碼階段處理小型矩陣,MoE模型推理涉及不同專家的小型矩陣計(jì)算,訓(xùn)練階段則處理大型矩陣。固定陣列在處理小型矩陣時會閑置大量計(jì)算單元,處理大型矩陣時需拆分任務(wù)、多次傳輸數(shù)據(jù),增加延遲。
可拆分脈動陣列的優(yōu)勢在于能動態(tài)拆解為多個小陣列單元,根據(jù)矩陣大小調(diào)整電路配置,提升計(jì)算效率:處理訓(xùn)練階段大型矩陣時不拆分,發(fā)揮大陣列的高能效與高面積效率;處理解碼階段小型矩陣或MoE模型并行計(jì)算時,拆分為多個小陣列,讓所有計(jì)算單元充分工作,避免資源閑置。
存儲架構(gòu)的混合創(chuàng)新
當(dāng)前存儲架構(gòu)有兩大主流路線:英偉達(dá)代表的HBM路線側(cè)重解決吞吐問題,通過高速搬運(yùn)芯片間的權(quán)重與激活值應(yīng)對大模型、長上下文需求;Cerebras Systems代表的片上SRAM路線側(cè)重解決延遲問題,通過片上存儲減少外部訪存,降低單次查詢延遲。
但單一路線存在局限:僅強(qiáng)調(diào)HBM帶寬難以降低延遲,僅強(qiáng)調(diào)片上SRAM則規(guī)模擴(kuò)展受限。MatX采用SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu),MatX One將大部分模型權(quán)重存儲在緊鄰邏輯電路的SRAM中,利用其低延遲特性加快處理速度;KV緩存數(shù)據(jù)則存儲在速度稍慢但容量更大的HBM中,通過緩存計(jì)算結(jié)果減少重復(fù)計(jì)算,節(jié)省時間。
MatX聯(lián)合創(chuàng)始人Reiner Pope在博客中表示:“這些架構(gòu)要素結(jié)合數(shù)值計(jì)算優(yōu)化,使MatX One在大模型計(jì)算中實(shí)現(xiàn)超越現(xiàn)有主流系統(tǒng)的吞吐量,延遲表現(xiàn)與純SRAM優(yōu)先設(shè)計(jì)相當(dāng)。”
在擴(kuò)展性與適應(yīng)性方面,MatX One具備優(yōu)秀的橫向擴(kuò)展互連架構(gòu),支持?jǐn)?shù)十萬枚芯片組成的計(jì)算集群,且能適配大型MoE模型與稠密模型,模型規(guī)模無上限限制(得益于可拆分脈動陣列)。
除硬件外,Reiner Pope的模型訓(xùn)練經(jīng)驗(yàn)也助力軟件優(yōu)化,MatX正探索將推測解碼與塊狀稀疏注意力機(jī)制融合,從模型層面進(jìn)一步提升計(jì)算效率。據(jù)報(bào)道,MatX與臺積電合作生產(chǎn)芯片,MatX One計(jì)劃2027年開始發(fā)貨。
token成本臨界點(diǎn):AI大規(guī)模普及的關(guān)鍵
以往AI芯片算力以FLOPS衡量,但推理算力更實(shí)際的指標(biāo)是每秒tokens數(shù)。例如,近期獲1.69億美元融資的AI算力公司Taalas宣稱,其單芯片對Llama 3.1 8B模型的推理速度達(dá)17000 tokens/秒。
每秒tokens數(shù)本質(zhì)是經(jīng)濟(jì)賬:客戶花數(shù)萬美元買芯片,若吞吐量為十萬tokens/秒,每token成本僅為一萬tokens/秒的十分之一。當(dāng)前AI算力的單位經(jīng)濟(jì)學(xué)尚未平衡,不少模型公司陷入“用戶越多虧損越多—限制使用—損害體驗(yàn)”的怪圈。
2025年以來,Agent作為AI應(yīng)用形式日益普及,其token消耗量遠(yuǎn)高于ChatBot:用戶與ChatBot交互幾十次可能消耗10-100萬tokens,而Agent完成復(fù)雜任務(wù)一晚上可能消耗上億tokens。當(dāng)前高級AI模型API價(jià)格較高,這種消耗對用戶和模型公司均難以承受。
當(dāng)token成本足夠低、單位經(jīng)濟(jì)學(xué)平衡時,AI普及將迎來質(zhì)變。如同移動互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)提速降費(fèi)、終端普及后,互聯(lián)網(wǎng)公司邊際成本降低,用戶能免費(fèi)享受優(yōu)質(zhì)服務(wù),催生微信、抖音等巨型應(yīng)用。
AI時代的普及需要算力基礎(chǔ)設(shè)施各環(huán)節(jié)共同降低token成本,目前雖有進(jìn)展但未達(dá)臨界點(diǎn)。行業(yè)向臨界點(diǎn)邁進(jìn)的過程中,將涌現(xiàn)更多優(yōu)秀創(chuàng)業(yè)公司,值得期待。
本文來自微信公眾號“阿爾法公社”(ID:alphastartups),作者:發(fā)現(xiàn)非凡創(chuàng)業(yè)者的,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




