24人團隊打造17000 token/秒專用芯片:通用與專用計算的未來之爭
本文來自微信公眾號:陸三金,作者:陸三金&kimi,原文標題:《24個人,17000 token/秒,一顆不可編程的芯片》
春節(jié)期間搜集新聞時,一個數(shù)據(jù)讓人眼前一亮:有芯片能將AI推理速度提升至17000 token/秒。
這顆芯片運行Llama 3.1 8B模型時,速度是Nvidia H200的七十多倍,功耗卻僅為其零頭。它無需液冷、HBM或復(fù)雜先進封裝,只是一塊815平方毫米的硅片,模型直接“刻”在芯片上。

值得注意的是,這顆芯片不可編程,只能運行特定模型。
研發(fā)它的公司Taalas由Ljubisa Bajic創(chuàng)立,他曾是Tenstorrent的CEO,帶領(lǐng)一群共事二十年的老同事,耗時兩年半打造出HC1芯片。這引發(fā)了一個經(jīng)典問題:通用計算與專用計算,誰才是未來?
一
Bajic在AMD、英偉達有13年芯片設(shè)計經(jīng)驗,參與過ASIC和APU研發(fā)。

2016年他創(chuàng)立Tenstorrent,專注通用AI芯片,憑借靈活架構(gòu)和軟件生態(tài)嶄露頭角。2020年“硅仙人”Jim Keller加入后,公司知名度大增。但兩年后Bajic轉(zhuǎn)任CTO,Keller任CEO,不久Bajic離開。
從Taalas的路線可推測原因:Tenstorrent走通用路線,而Taalas做專用芯片。Bajic認為通用路線存在問題——現(xiàn)代AI推理硬件被計算與存儲的速度差(上千倍)制約,廠商不得不堆HBM、搞先進封裝和液冷,導(dǎo)致數(shù)據(jù)中心成本高、功耗大。

Taalas的解決方案是消除計算與存儲的界限,將模型直接“刻”進硅片,讓存儲與計算合一,無需高帶寬內(nèi)存和復(fù)雜IO,功耗大幅降低,但代價是芯片功能單一。
二
HC1參數(shù)亮眼:臺積電6納米工藝,530億晶體管,815平方毫米,單用戶場景下17000 tokens/秒,遠超Cerebras(約2000 tokens)和Nvidia H200(230 tokens),建造成本僅為二十分之一,功耗為十分之一。
但它僅能運行Llama 3.1 8B,該模型2024年7月發(fā)布,到2026年2月已近兩年。AI領(lǐng)域迭代迅速,期間OpenAI、Anthropic、Google等已推出多代新模型,Meta也發(fā)布了Llama 3.3,DeepSeek R1更是顛覆行業(yè)。
Taalas稱“模型到硬件只需兩個月”,但網(wǎng)友質(zhì)疑:若如此,為何不展示更新的DeepSeek模型?還有人擔心模型技術(shù)路線變化,如DeepSeek R1打亂眾多公司計劃,定制芯片可能迅速過時。Bajic也承認風險:“沒人走這條路,因AI變化快,風險大。”


三
Taalas的客戶需“愿意為一年承諾買單”,以攤平定制成本。但AI市場迭代快,創(chuàng)業(yè)公司和大廠都不敢輕易承諾。Bajic舉例,DeepSeek R1 671B模型需約30顆芯片,意味著30次增量流片,雖成本低但仍繁瑣。他認為總擁有成本低于GPU方案,但前提是模型架構(gòu)無大變化,否則芯片可能報廢。比特幣挖礦ASIC的迭代歷史就是教訓(xùn),舊礦機迅速貶值,只有巨頭能生存。Taalas面臨同樣問題:硬件生命周期能否追上軟件變化?

四
HC1能容納8B模型,靠的是激進量化(3-bit和6-bit混合精度),Taalas承認“相比GPU基準有質(zhì)量損失”,計劃第二代HC2改用4-bit浮點格式。這對高精度推理場景可能致命,且模型越大,量化損失可能越明顯,硬連線方案能否適配更大模型存疑。
五
24人小團隊用三千萬美元造出高性能芯片,證明AI芯片領(lǐng)域有不同路徑。技術(shù)路線選擇不僅是技術(shù)問題,Taalas賭AI模型會收斂,少數(shù)架構(gòu)統(tǒng)治市場,那時效率比靈活性重要。但當前AI市場遠未收斂,DeepSeek R1的出現(xiàn)說明顛覆隨時可能發(fā)生。將模型刻進硅片如同在流沙上蓋房,地基不穩(wěn)。Bajic團隊用極端專用化追求極致效率,HC1是一次嘗試,HC2或有新突破。這支共事超二十年的精簡團隊,在快速迭代的AI時代,試圖讓硬件追上模型速度,等待模型穩(wěn)定后逆襲,充滿冒險與浪漫。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



