00后創(chuàng)辦英國(guó)AI芯片獨(dú)角獸Olix:融資15億估值超69億 首批產(chǎn)品明年交付
Olix前身為Flux Computing,2024年3月在英國(guó)倫敦成立,創(chuàng)始人James Dacombe年僅25歲,同時(shí)擔(dān)任英國(guó)腦監(jiān)測(cè)企業(yè)CoMind的創(chuàng)始人兼CEO。CoMind是他18歲時(shí)創(chuàng)辦的,目前已獲得1億美元(約合人民幣7億元)融資。

▲James Dacombe
針對(duì)AI推理場(chǎng)景,Olix正在研發(fā)新型AI芯片,聚焦高吞吐量與高交互性,以應(yīng)對(duì)復(fù)雜推理工作負(fù)載,且不受現(xiàn)有AI芯片架構(gòu)和供應(yīng)鏈的限制。其核心產(chǎn)品為光學(xué)張量處理單元(OTPU),這是一款融合新型存儲(chǔ)器與互連架構(gòu)的光學(xué)數(shù)字處理器。團(tuán)隊(duì)認(rèn)為,將SRAM架構(gòu)與光子學(xué)技術(shù)結(jié)合,能在每兆瓦吞吐量和總擁有成本上超越HBM架構(gòu)產(chǎn)品,同時(shí)在交互性和延遲表現(xiàn)上顯著優(yōu)于純硅SRAM架構(gòu)芯片。
截至目前,Olix累計(jì)融資已達(dá)2.5億美元(約合人民幣17億元)。知情人士透露,公司計(jì)劃最早于明年向客戶交付首批產(chǎn)品,但Olix方面未就融資相關(guān)事宜作出回應(yīng)。Vertex Ventures普通合伙人、前Facebook基礎(chǔ)設(shè)施高管Jonathan Heiliger評(píng)價(jià)稱,AI推理需要對(duì)芯片制造方式進(jìn)行徹底革新,系統(tǒng)級(jí)架構(gòu)的大規(guī)模重構(gòu)難度極高,而“James及其團(tuán)隊(duì)的執(zhí)行速度比資源多十倍的公司還要快”。
當(dāng)前英國(guó)芯片企業(yè)的融資規(guī)模遠(yuǎn)落后于美國(guó)。另一家英國(guó)AI芯片創(chuàng)企Fractile昨日宣布,未來三年將投資1億英鎊(約合人民幣9億元),用于擴(kuò)大英國(guó)本土業(yè)務(wù)。
Olix官網(wǎng)分享的芯片設(shè)計(jì)思路顯示:
現(xiàn)有GPU架構(gòu)已接近物理極限,當(dāng)前硬件從根本上無法同時(shí)為每個(gè)用戶提供快速推理服務(wù)。這種權(quán)衡是自TPUv2和V100以來主流加速器內(nèi)存架構(gòu)的固有問題——大型邏輯芯片置于中介層,旁側(cè)搭配堆疊HBM內(nèi)存。只有通過批量處理大量用戶數(shù)據(jù),充分利用計(jì)算資源,并分?jǐn)偰P蜋?quán)重經(jīng)HBM傳輸至大量輸出token的能耗,才能實(shí)現(xiàn)高吞吐量。但大批量處理必然增加用戶延遲、降低交互性,迫使用戶做出艱難取舍。
推理性能受限于數(shù)據(jù)傳輸,邏輯效率和吞吐量的提升收益逐漸遞減,數(shù)據(jù)傳輸時(shí)間縮短受內(nèi)存墻、封裝互連邊界長(zhǎng)度及封裝尺寸限制。HBM從2代到4代的過渡雖在能效和吞吐量密度上有顯著提升,但再次實(shí)現(xiàn)同等規(guī)模改進(jìn)需近十年時(shí)間,且依賴更復(fù)雜昂貴的制造技術(shù)。同時(shí),HBM性能提升帶來的能效改善有限,限制了token傳輸KV cache的pJ/bit能量,進(jìn)而制約當(dāng)前架構(gòu)中token總能耗下限。
過去十年,架構(gòu)擴(kuò)展提升了系統(tǒng)整體性能,但進(jìn)一步擴(kuò)展無法同時(shí)實(shí)現(xiàn)高吞吐量與高交互性。從英偉達(dá)Hopper到Rubin Ultra,封裝尺寸增長(zhǎng)約4倍,再增長(zhǎng)4倍將接近晶圓級(jí)封裝極限。更大封裝雖能縮短數(shù)據(jù)傳輸時(shí)間、提升交互性,卻無法降低固定數(shù)據(jù)傳輸延遲,阿姆達(dá)爾定律限制了通過增大封裝尺寸提升交互性的可能性。數(shù)據(jù)從HBM經(jīng)中介層進(jìn)入計(jì)算單元的物理路徑未發(fā)生根本改變,跨光罩高帶寬接口的引入反而增加了復(fù)雜性,數(shù)據(jù)傳輸延遲已接近或達(dá)到極限,成為token延遲的重要組成部分。此外,更大層張量并行性雖能縮短每層數(shù)據(jù)傳輸時(shí)間,但會(huì)增加功耗和互連延遲;高吞吐量編碼方案也會(huì)引入編解碼延遲,提高token最低延遲,限制交互性實(shí)現(xiàn)。
若能通過規(guī)模、集成或執(zhí)行解決上述權(quán)衡問題,現(xiàn)有計(jì)算生態(tài)核心企業(yè)應(yīng)是主導(dǎo)者,但它們因預(yù)付巨額資金確保領(lǐng)先邏輯節(jié)點(diǎn)、HBM及先進(jìn)封裝能力,在軟件、系統(tǒng)集成和供應(yīng)鏈上形成護(hù)城河,每一代都強(qiáng)化該模式,導(dǎo)致底層限制未變,仍無法同時(shí)實(shí)現(xiàn)高交互性與高吞吐量。
Olix團(tuán)隊(duì)認(rèn)為,能同時(shí)提供高吞吐量與高交互性的硬件,需同時(shí)解決大規(guī)模數(shù)據(jù)傳輸效率和延遲問題,僅改善單一維度只是改變權(quán)衡本質(zhì)。從供應(yīng)鏈和制造角度,新架構(gòu)需放棄HBM、先進(jìn)封裝等受現(xiàn)有廠商供應(yīng)鏈限制的技術(shù),否則初創(chuàng)公司無法與超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商競(jìng)爭(zhēng);從兼容性角度,硬件必須支持現(xiàn)有模型,不應(yīng)強(qiáng)制要求模型具備量子算術(shù)或物理理論能力,也不應(yīng)依賴新熱力學(xué)神經(jīng)擬態(tài)架構(gòu);從設(shè)計(jì)角度,需從系統(tǒng)級(jí)思考,從光罩級(jí)、晶圓級(jí)設(shè)計(jì)轉(zhuǎn)向機(jī)架級(jí)計(jì)算與數(shù)據(jù)傳輸?shù)膮f(xié)同設(shè)計(jì),將其作為統(tǒng)一系統(tǒng)。
該領(lǐng)域雖有資金雄厚的挑戰(zhàn)者,但多陷入兩種失敗模式:部分芯片仍采用邏輯芯片-中介層-HBM架構(gòu)范式,與新一代GPU/TPU競(jìng)爭(zhēng)時(shí)面臨相同的交互性-吞吐量權(quán)衡;另一部分雖認(rèn)識(shí)到需新范式,試圖重塑權(quán)衡取舍,卻無法擺脫局限,受限于純硅基方法。Olix希望擺脫這些限制,創(chuàng)造前沿AI的下一個(gè)范式。
本文來自微信公眾號(hào)“芯東西”,作者:ZeR0,編輯:漠影,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




