欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<bdo id="8yk6q"><dd id="8yk6q"></dd></bdo>

<pre id="8yk6q"><bdo id="8yk6q"></bdo></pre>

<code id="8yk6q"><source id="8yk6q"></source></code>

<button id="8yk6q"><bdo id="8yk6q"></bdo></button>

提供“開箱即用”的大模型訓練能力，「算想未來」推出云原生大模型算力平臺

商界觀察

2023-08-24

36 氪獲悉，AI 算力平臺技術提供商「算想未來」推出云原生大模型算力平臺，通過先進 GPU 集群調度算法、軟件優(yōu)化提升客戶集群使用效率、降低大模型算力使用成本。

算想未來是服務于大模型的算力云服務技術提供商，2022 年 10 月獲得陸奇博士的奇績創(chuàng)壇種子輪融資。

創(chuàng)始人趙亞雄博士畢業(yè)于清華大學，長期從事分布式算力平臺領域的研發(fā)工作，此前在谷歌數據中心網絡基礎設施團隊擔任 Tech Lead，負責高性能網絡架構與 SDN 系統(tǒng)研發(fā)；后在集群管理系統(tǒng)團隊 Borg 擔任 Tech Lead Manager，負責谷歌 GPU/TPU 算力平臺的研發(fā)工作。創(chuàng)立算想未來之前，趙亞雄是云原生可觀測性創(chuàng)業(yè)公司 Pixie 創(chuàng)始團隊成員，帶領技術團隊在 1.5 年內被上市公司 New Relic 收購。

在谷歌工作期間，趙亞雄博士積累了大量 AI 算力平臺軟件系統(tǒng)中的核心技術研發(fā)經驗，包括 GPU/TPU 調度、高性能網絡通信、光電混合網絡架構等方面的研發(fā)開發(fā)經驗。

趙亞雄博士向 36 氪表示，全球云服務市場美國廠商整體規(guī)模是國內廠商數倍，AWS、谷歌、微軟三家份額接近 70%，國內廠商整體占比約為 10%，細分至 AI 領域，算力規(guī)模差距更大、及；算力平臺軟件系統(tǒng)方面的差距則更大。

隨著生成式 AI 及 AI 大模型的興起，國內廠商采購 GPU 面臨核心技術指標受限的難題：單芯片算力不能超過 4800 TOPs、多卡通信帶寬不能超過 600 GB/s。此兩項指標上限取自 NVIDIA A100；下一代的 NVIDIA H100 提供 900GB/s 多卡通信帶寬，國內能采購的 A800、H800 多卡帶寬為 400 GB/s，落后接近 60%。

此外，GPU 產能吃緊，溢價較為嚴重。A100/A800 2023 年上半年的價格相對 2021 年上漲 50%，并且 A100/A800 已停產，NVIDIA 已不再接收 A100/A800 訂單。

據 Raymond James 數據，一張 H100 計算卡制造成本為 3320 美元，NVIDIA 以 2.5 萬至 3 萬美元的價格出售給客戶，毛利率高達 1000%，且需求只增不減，H100 已售罄缺貨到 2024 年。在高端算力需求快速增長的情況下，中國廠商將來需要更高效的 GPU 算力的軟硬件優(yōu)化方案解決高端 GPU 短緊缺的情況難題。

利用軟硬件優(yōu)化釋放 GPU 資源池算力的過程較為復雜，包含了服務器架構、編譯工具鏈、AI 應用框架、分布式計算、高性能存儲等多個層級。針對各公司自身算力池的優(yōu)化方案，國內大部分廠商若要搭建相應軟件團隊，需要在各個層級都聘請工程師團隊，成本較高。此外，上述軟件系統(tǒng)的運維成本也極其高昂。

針對上述情況，算想未來為客戶提供 " 開箱即用 " 的大模型訓練能力和硬件資源管理能力，實現(xiàn)低成本的高端算力服務。未來拓展為訓推一體大模型算力云平臺，為大模型團隊提供一站式算力云平臺解決方案。

硬件資源管理能力方面，算想未來為客戶的 GPU 服務器集群搭建基于 Kubernets 的云原生算力平臺。依托來自容器和云原生技術發(fā)源地 Google Borg 的先進 GPU 資源調度算法，提升 GPU 服務器集群的資源使用率。

大模型訓練能力方面，與傳統(tǒng)基于單卡的計算任務不同，大模型訓練屬于大規(guī)模分布式計算任務，GPU 在該長時間訓練過程中的故障率高達 5%-20%。一旦 GPU 發(fā)生偶發(fā)性故障，需要工程師手動干預來重啟訓練任務，降低了大模型團隊的研發(fā)效率。

第一階段，算想未來目前以 AI 私有云平臺為切入口，針對英偉達 GPU 算力池優(yōu)化進行 GPU I/O 優(yōu)化、集合通信（collective communication）性能等領域進行軟件方面的優(yōu)化。

同時通過自動化監(jiān)控監(jiān)測 GPU 運行情況、以及計算任務執(zhí)行情況，客戶可在算想未來平臺上做到容錯調度，實現(xiàn)無人干預的長時間穩(wěn)定訓練的效果，提升大模型團隊研發(fā)效率、加速模型迭代。

算想未來已積累到多家種子客戶，主要系擁有自己 GPU 算力池的公司，包括國內知名的 GPU 算力池企業(yè)、地方及國家級人工智能算力中心等。

趙亞雄博士表示，算想未來目前的客戶更偏向于擁有算力資源的企業(yè)，第二階段公司將開發(fā)分布式大模型算力市場，為大模型團隊和算力提供方提供開放的算力采購、售賣的市場。

以 IDC 提供的 A100 集群為例，雖然目前 GPU 較為緊缺，但使用率僅在 30%-60% 之間，存在大量閑置算力。單一的 IDC 廠商主攻軟件優(yōu)化方案將耗費大量人力物力，同時目前軟件營收規(guī)模吸引力較小，IDC 廠商更愿意專注于大客戶的硬件長租業(yè)務，相應成本中小客戶難以承擔，尋找相應軟件合作商成為目前國內 IDC 廠商的主流選擇。

此外，算想未來將與公有云廠商合作，將長租公有云 GPU 集群算力，搭配私有云平臺的軟件技術，為客戶提供隨需隨用的高端 GPU 算力；更進一步通過軟件優(yōu)化，將閑置的中低端 GPU（包括國產 GPU）的算力充分釋放，支持大模型推理的算力需求，讓閑置算力擁有者獲得變現(xiàn)渠道。

如今 AI 浪潮席卷到中國市場，幾乎所有的主流云廠商、芯片廠商都有做 AI 算力集群、AI 云的嘗試，算想未來如何看待和大廠的競爭？

趙亞雄博士表示，算想未來的客戶是迫切尋求大模型工程能力的中小型技術企業(yè)，相比主要云廠商主攻大客戶提供 " 勞斯萊斯 "，此類解決方案規(guī)模龐大、功能齊全但是使用困難，中小企業(yè)難以負擔其高昂的成本；算想未來為中小型技術企業(yè)提供 " 隨叫隨到的 Waymo 無人網約車 "，即自動化免運維的大模型算力服務，在中短期內與主流云廠商不發(fā)生直接利益沖突。

同時國產 GPU 成熟前，國內進口 GPU 的質量和數量受到限制，國產 GPU 能大規(guī)模商業(yè)化落地還需時日，目前大廠難以實際應用，算想未來通過與國產 GPU 的戰(zhàn)略合作，可以積累到足夠的技術壁壘。

當前，算想未來與國產 DPU、GPU 廠商、高?？蒲袌F隊簽署合作協(xié)議，開展針對大模型算力需求場景下，適配國產 DPU、GPU 的高性能集合通信算法與軟件 API；同時開展基于國產 GPU 的大模型算力平臺的研發(fā)。

其他團隊成員方面，算想未來創(chuàng)始團隊均來自谷歌、華為等企業(yè)，具有世界頂尖的 AI 算力平臺研發(fā)經驗。算想未來目前開啟新一輪融資，計劃建立硅谷研發(fā)中心，用于擴充工程師團隊和推進分布式大模型算力市場的商業(yè)化。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

對話“稚暉君”：做機器人并非突發(fā)奇想，對標特斯拉“擎天柱”規(guī)劃量產

用友金融將于8月29日北交所上會，主營數智化產品及技術服務

國子軟件登陸北交所上市，首日收漲

上汽飛凡三電體系首發(fā)，攜「兩桶油」、寧德時代打造換電體系

神秘之舞：新技術實現(xiàn)光子的量子糾纏快速可視化

<code id="c84cs"><source id="c84cs"></source></code>