欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<style id="kpo2i"><progress id="kpo2i"><track id="kpo2i"></track></progress></style>

<rt id="kpo2i"></rt>

<style id="kpo2i"><delect id="kpo2i"><pre id="kpo2i"></pre></delect></style>

<rt id="kpo2i"></rt><li id="kpo2i"><strong id="kpo2i"></strong></li>

284毫瓦的LPU芯片：真能顛覆大模型推理嗎？

04-02 06:33

本文來自微信公眾號：歪睿老哥，作者：歪睿老哥

朋友們，今天來聊聊一款頗具爭議的AI推理芯片。

一家韓國公司研發(fā)出了一款A(yù)I推理芯片，其功耗僅為284毫瓦。沒錯，不是284瓦，而是284毫瓦。就是這樣一款低功耗芯片，卻聲稱在LLM推理性能上超過了NVIDIA H100，能效比更是比H100高出33%。如果這是真的，那無疑是AI芯片領(lǐng)域的一大突破。今天我們就來深入分析這款名為LPU的芯片，看看它究竟是真材實料還是夸大其詞。

1. 指甲蓋千分之一大小的芯片，為何如此強悍？

先來看一組參數(shù)，絕對讓你驚訝。

首先是LPU這個名字，它的全稱是Latency Processing Unit（延遲處理單元），而非LLM Processing Unit（大語言模型專用處理器），不過它確實是用于處理LLM大語言模型推理的，只能說命名思路比較特別。

這款芯片的架構(gòu)如下：

據(jù)研發(fā)團隊介紹，該芯片采用三星4nm工藝制造，芯片面積僅0.824平方毫米。這是什么概念呢？我們的指甲蓋大約有100平方毫米，這款芯片的面積還不到指甲蓋的1%。它的功耗為284.31毫瓦，僅相當(dāng)于手機充電器功率的零頭。

就是這樣一款“袖珍”芯片，性能卻不容小覷。處理13億（1.3B）參數(shù)的大模型時，每生成一個token僅需1.25毫秒；兩顆LPU協(xié)同處理660億參數(shù)的大模型時，每生成一個token的速度為20.9毫秒，比GPU快1.37到2.09倍。更關(guān)鍵的是，它的能效比H100高1.33倍，比L4高1.32倍。

要是在三年前，有人說284毫瓦的芯片能與1100瓦的H100抗衡，恐怕會被認(rèn)為是天方夜譚。但HyperAccel公司確實進(jìn)行了對比測試。

2. LPU的核心優(yōu)勢：高效、精準(zhǔn)、協(xié)同

這款芯片之所以性能出色，與其獨特的架構(gòu)密不可分。

第一大優(yōu)勢：Streamlined Memory Access（SMA，流線型內(nèi)存訪問）

簡單來說，就是對內(nèi)存訪問進(jìn)行了專門優(yōu)化。大模型推理的主要瓶頸并非算力不足，而是內(nèi)存帶寬。GPU效率低的原因在于，它是為并行計算設(shè)計的，擁有大量核心同時工作，但LLM推理的特點是每次只處理一個向量，完成后再處理下一個，導(dǎo)致GPU的多數(shù)核心處于閑置狀態(tài)。

LPU則不同，它專為大模型推理設(shè)計了“流線型”內(nèi)存訪問機制，數(shù)據(jù)從HBM直接傳輸?shù)接嬎銌卧?，中間無需繞路，帶寬利用率可達(dá)90%。而H100在處理小模型時帶寬利用率僅為28.5%，處理大模型時也只有70%左右，差距明顯。

第二大優(yōu)勢：Operand Issue Unit（OIU，操作數(shù)分發(fā)單元）

這個單元負(fù)責(zé)數(shù)據(jù)調(diào)度，就像一位智能管家，提前準(zhǔn)備好計算所需的數(shù)據(jù)，一旦計算單元需要，就能立即提供，避免了等待時間。

第三大優(yōu)勢：Streamlined Execution Engine（SXE，流線型執(zhí)行引擎）

這是LPU的計算核心，內(nèi)置了大量定制的MAC樹（乘加運算單元），專門用于處理向量乘矩陣的運算，而這正是大模型推理中最耗時的操作。LPU將這些MAC樹排列得十分規(guī)整，數(shù)據(jù)流進(jìn)來后能一路計算到底，中間不停頓，就像一條高效的生產(chǎn)線。

第四大優(yōu)勢：ESL（Expandable Synchronization Link，可擴展同步鏈路）

這是LPU的關(guān)鍵技術(shù)。運行大模型時，單顆芯片的內(nèi)存往往不足，需要多顆芯片協(xié)同工作。多顆芯片之間如何通信呢？GPU采用NVLink，帶寬達(dá)900GB/s，看似很快，但通信時計算必須停止等待，導(dǎo)致效率下降。雙GPU的加速比平均只有1.38倍，四GPU的加速比更低。

LPU的ESL技術(shù)則不同，它能隱藏通信延遲，實現(xiàn)通信與計算的重疊進(jìn)行。因此，雙LPU的加速比能達(dá)到1.75倍，接近理論極限的2倍。

這種可擴展性，連GPU都望塵莫及。

3. 軟件生態(tài)：HyperDex讓使用更便捷

硬件性能再強，如果軟件不好用也難以推廣。HyperAccel公司開發(fā)了名為HyperDex的軟件框架，功能十分全面：

它支持自動編譯，能根據(jù)模型參數(shù)生成內(nèi)存映射和指令；同時支持HuggingFace API，主流的LLM模型都能在上面運行。這對開發(fā)者來說是個好消息，無需重新學(xué)習(xí)一套全新的工具。

不過，新架構(gòu)的生態(tài)建設(shè)是一個長期過程。NVIDIA的CUDA生態(tài)已經(jīng)發(fā)展了十幾年，護(hù)城河十分深厚。LPU要想撼動NVIDIA的地位，僅靠性能優(yōu)勢還不夠，還需要吸引更多開發(fā)者和廠商加入。

4. LPU能超越NVIDIA嗎？還需冷靜看待

看到這里，你可能會問：LPU真的這么厲害嗎？

需要明確的是，這只是一款原型芯片。

首先，它是原型專用芯片，而非通用芯片。LPU只能用于大模型推理，無法完成其他任務(wù)；而GPU則能兼顧訓(xùn)練、推理、游戲、挖礦等多種用途，應(yīng)用場景完全不同。

其次，論文數(shù)據(jù)與量產(chǎn)實際情況存在差異。論文中的數(shù)據(jù)是在理想條件下測試得到的，而真實場景中模型類型多樣、請求復(fù)雜，能否保持這樣的效率還不確定。

最后，生態(tài)差距巨大。NVIDIA擁有CUDA、TensorRT以及眾多優(yōu)化庫，而LPU目前還只是一個新入局者。

不過，專用芯片在特定領(lǐng)域超越通用芯片的情況并非沒有先例。比如比特幣挖礦，最初使用GPU，后來專用ASIC芯片出現(xiàn)后，GPU就被淘汰了。大模型推理是否會走同樣的道路呢？可能性很大。畢竟推理任務(wù)相對固定，不像訓(xùn)練那么復(fù)雜。如果專用芯片能降低成本和功耗，云廠商沒有理由不采用。

5. 對我們的影響：端側(cè)AI推理或迎爆發(fā)

作為普通用戶，你可能覺得這與自己無關(guān)，但事實并非如此。

端側(cè)推理AI芯片可能會迎來爆發(fā)。284毫瓦的功耗，在手機上也能使用。未來，我們的手機或許能本地運行大模型，無需聯(lián)網(wǎng)，這樣隱私、延遲、費用等問題都能得到解決。

不過，目前存儲仍是瓶頸。這款284毫瓦的芯片使用了FPGA原型上的HBM來存儲數(shù)據(jù)，就像一輛摩托車?yán)粋€大油罐。但這也說明，當(dāng)前大模型推理芯片的瓶頸更多在存儲，而非計算。

6. 總結(jié)

LPU芯片讓我們看到了專用AI芯片的潛力，在特定場景下，專用架構(gòu)確實能比通用架構(gòu)高效得多。但要說它能顛覆NVIDIA，現(xiàn)在還為時過早，畢竟生態(tài)建設(shè)不是一蹴而就的。

不過可以確定的是，AI推理芯片領(lǐng)域的競爭會越來越激烈。除了LPU，還有Gorq、SambaNova、Tenstorrent、Taalas等眾多參與者，未來會有更多架構(gòu)加入這場競爭。

你認(rèn)為專用AI推理芯片能撼動NVIDIA的地位嗎？

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

廿五載歲月流轉(zhuǎn)，81192，我們永遠(yuǎn)銘記！

無錫公積金2026年4月還貸提取資金劃轉(zhuǎn)安排及本地動態(tài)

方寸荷包藏錦繡：吳文化博物館刺繡特展里的盈握之美

龍鄉(xiāng)巾幗志愿紅溫暖三月春

危急時刻顯擔(dān)當(dāng)！民警緊急救援車禍被困人員

<rt id="wqkmh"></rt>