284毫瓦的LPU芯片:真能顛覆大模型推理嗎?
本文來自微信公眾號:歪睿老哥,作者:歪睿老哥
朋友們,今天來聊聊一款頗具爭議的AI推理芯片。
一家韓國公司研發(fā)出了一款A(yù)I推理芯片,其功耗僅為284毫瓦。沒錯,不是284瓦,而是284毫瓦。就是這樣一款低功耗芯片,卻聲稱在LLM推理性能上超過了NVIDIA H100,能效比更是比H100高出33%。如果這是真的,那無疑是AI芯片領(lǐng)域的一大突破。今天我們就來深入分析這款名為LPU的芯片,看看它究竟是真材實料還是夸大其詞。
1. 指甲蓋千分之一大小的芯片,為何如此強悍?
先來看一組參數(shù),絕對讓你驚訝。
首先是LPU這個名字,它的全稱是Latency Processing Unit(延遲處理單元),而非LLM Processing Unit(大語言模型專用處理器),不過它確實是用于處理LLM大語言模型推理的,只能說命名思路比較特別。
這款芯片的架構(gòu)如下:

據(jù)研發(fā)團隊介紹,該芯片采用三星4nm工藝制造,芯片面積僅0.824平方毫米。這是什么概念呢?我們的指甲蓋大約有100平方毫米,這款芯片的面積還不到指甲蓋的1%。它的功耗為284.31毫瓦,僅相當(dāng)于手機充電器功率的零頭。
就是這樣一款“袖珍”芯片,性能卻不容小覷。處理13億(1.3B)參數(shù)的大模型時,每生成一個token僅需1.25毫秒;兩顆LPU協(xié)同處理660億參數(shù)的大模型時,每生成一個token的速度為20.9毫秒,比GPU快1.37到2.09倍。更關(guān)鍵的是,它的能效比H100高1.33倍,比L4高1.32倍。
要是在三年前,有人說284毫瓦的芯片能與1100瓦的H100抗衡,恐怕會被認(rèn)為是天方夜譚。但HyperAccel公司確實進(jìn)行了對比測試。
2. LPU的核心優(yōu)勢:高效、精準(zhǔn)、協(xié)同
這款芯片之所以性能出色,與其獨特的架構(gòu)密不可分。

第一大優(yōu)勢:Streamlined Memory Access(SMA,流線型內(nèi)存訪問)
簡單來說,就是對內(nèi)存訪問進(jìn)行了專門優(yōu)化。大模型推理的主要瓶頸并非算力不足,而是內(nèi)存帶寬。GPU效率低的原因在于,它是為并行計算設(shè)計的,擁有大量核心同時工作,但LLM推理的特點是每次只處理一個向量,完成后再處理下一個,導(dǎo)致GPU的多數(shù)核心處于閑置狀態(tài)。
LPU則不同,它專為大模型推理設(shè)計了“流線型”內(nèi)存訪問機制,數(shù)據(jù)從HBM直接傳輸?shù)接嬎銌卧?,中間無需繞路,帶寬利用率可達(dá)90%。而H100在處理小模型時帶寬利用率僅為28.5%,處理大模型時也只有70%左右,差距明顯。
第二大優(yōu)勢:Operand Issue Unit(OIU,操作數(shù)分發(fā)單元)
這個單元負(fù)責(zé)數(shù)據(jù)調(diào)度,就像一位智能管家,提前準(zhǔn)備好計算所需的數(shù)據(jù),一旦計算單元需要,就能立即提供,避免了等待時間。
第三大優(yōu)勢:Streamlined Execution Engine(SXE,流線型執(zhí)行引擎)
這是LPU的計算核心,內(nèi)置了大量定制的MAC樹(乘加運算單元),專門用于處理向量乘矩陣的運算,而這正是大模型推理中最耗時的操作。LPU將這些MAC樹排列得十分規(guī)整,數(shù)據(jù)流進(jìn)來后能一路計算到底,中間不停頓,就像一條高效的生產(chǎn)線。
第四大優(yōu)勢:ESL(Expandable Synchronization Link,可擴展同步鏈路)
這是LPU的關(guān)鍵技術(shù)。運行大模型時,單顆芯片的內(nèi)存往往不足,需要多顆芯片協(xié)同工作。多顆芯片之間如何通信呢?GPU采用NVLink,帶寬達(dá)900GB/s,看似很快,但通信時計算必須停止等待,導(dǎo)致效率下降。雙GPU的加速比平均只有1.38倍,四GPU的加速比更低。
LPU的ESL技術(shù)則不同,它能隱藏通信延遲,實現(xiàn)通信與計算的重疊進(jìn)行。因此,雙LPU的加速比能達(dá)到1.75倍,接近理論極限的2倍。

這種可擴展性,連GPU都望塵莫及。
3. 軟件生態(tài):HyperDex讓使用更便捷
硬件性能再強,如果軟件不好用也難以推廣。HyperAccel公司開發(fā)了名為HyperDex的軟件框架,功能十分全面:
它支持自動編譯,能根據(jù)模型參數(shù)生成內(nèi)存映射和指令;同時支持HuggingFace API,主流的LLM模型都能在上面運行。這對開發(fā)者來說是個好消息,無需重新學(xué)習(xí)一套全新的工具。
不過,新架構(gòu)的生態(tài)建設(shè)是一個長期過程。NVIDIA的CUDA生態(tài)已經(jīng)發(fā)展了十幾年,護(hù)城河十分深厚。LPU要想撼動NVIDIA的地位,僅靠性能優(yōu)勢還不夠,還需要吸引更多開發(fā)者和廠商加入。
4. LPU能超越NVIDIA嗎?還需冷靜看待
看到這里,你可能會問:LPU真的這么厲害嗎?
需要明確的是,這只是一款原型芯片。
首先,它是原型專用芯片,而非通用芯片。LPU只能用于大模型推理,無法完成其他任務(wù);而GPU則能兼顧訓(xùn)練、推理、游戲、挖礦等多種用途,應(yīng)用場景完全不同。

其次,論文數(shù)據(jù)與量產(chǎn)實際情況存在差異。論文中的數(shù)據(jù)是在理想條件下測試得到的,而真實場景中模型類型多樣、請求復(fù)雜,能否保持這樣的效率還不確定。
最后,生態(tài)差距巨大。NVIDIA擁有CUDA、TensorRT以及眾多優(yōu)化庫,而LPU目前還只是一個新入局者。
不過,專用芯片在特定領(lǐng)域超越通用芯片的情況并非沒有先例。比如比特幣挖礦,最初使用GPU,后來專用ASIC芯片出現(xiàn)后,GPU就被淘汰了。大模型推理是否會走同樣的道路呢?可能性很大。畢竟推理任務(wù)相對固定,不像訓(xùn)練那么復(fù)雜。如果專用芯片能降低成本和功耗,云廠商沒有理由不采用。
5. 對我們的影響:端側(cè)AI推理或迎爆發(fā)
作為普通用戶,你可能覺得這與自己無關(guān),但事實并非如此。
端側(cè)推理AI芯片可能會迎來爆發(fā)。284毫瓦的功耗,在手機上也能使用。未來,我們的手機或許能本地運行大模型,無需聯(lián)網(wǎng),這樣隱私、延遲、費用等問題都能得到解決。
不過,目前存儲仍是瓶頸。這款284毫瓦的芯片使用了FPGA原型上的HBM來存儲數(shù)據(jù),就像一輛摩托車?yán)粋€大油罐。但這也說明,當(dāng)前大模型推理芯片的瓶頸更多在存儲,而非計算。
6. 總結(jié)
LPU芯片讓我們看到了專用AI芯片的潛力,在特定場景下,專用架構(gòu)確實能比通用架構(gòu)高效得多。但要說它能顛覆NVIDIA,現(xiàn)在還為時過早,畢竟生態(tài)建設(shè)不是一蹴而就的。
不過可以確定的是,AI推理芯片領(lǐng)域的競爭會越來越激烈。除了LPU,還有Gorq、SambaNova、Tenstorrent、Taalas等眾多參與者,未來會有更多架構(gòu)加入這場競爭。
你認(rèn)為專用AI推理芯片能撼動NVIDIA的地位嗎?
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



