欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

提供“開箱即用”的大模型訓練能力,「算想未來」推出云原生大模型算力平臺

商界觀察
2023-08-24

36 氪獲悉,AI 算力平臺技術提供商「算想未來」推出云原生大模型算力平臺,通過先進 GPU 集群調度算法、軟件優(yōu)化提升客戶集群使用效率、降低大模型算力使用成本。

 

算想未來是服務于大模型的算力云服務技術提供商,2022 年 10 月獲得陸奇博士的奇績創(chuàng)壇種子輪融資。

 

創(chuàng)始人趙亞雄博士畢業(yè)于清華大學,長期從事分布式算力平臺領域的研發(fā)工作,此前在谷歌數據中心網絡基礎設施團隊擔任 Tech Lead,負責高性能網絡架構與 SDN 系統(tǒng)研發(fā);后在集群管理系統(tǒng)團隊 Borg 擔任 Tech Lead Manager,負責谷歌 GPU/TPU 算力平臺的研發(fā)工作。創(chuàng)立算想未來之前,趙亞雄是云原生可觀測性創(chuàng)業(yè)公司 Pixie 創(chuàng)始團隊成員,帶領技術團隊在 1.5 年內被上市公司 New Relic 收購。

 

在谷歌工作期間,趙亞雄博士積累了大量 AI 算力平臺軟件系統(tǒng)中的核心技術研發(fā)經驗,包括 GPU/TPU 調度、高性能網絡通信、光電混合網絡架構等方面的研發(fā)開發(fā)經驗。

 

趙亞雄博士向 36 氪表示,全球云服務市場美國廠商整體規(guī)模是國內廠商數倍,AWS、谷歌、微軟三家份額接近 70%,國內廠商整體占比約為 10%,細分至 AI 領域,算力規(guī)模差距更大、及;算力平臺軟件系統(tǒng)方面的差距則更大。

 

隨著生成式 AI 及 AI 大模型的興起,國內廠商采購 GPU 面臨核心技術指標受限的難題:單芯片算力不能超過 4800 TOPs、多卡通信帶寬不能超過 600 GB/s。此兩項指標上限取自 NVIDIA A100;下一代的 NVIDIA H100 提供 900GB/s 多卡通信帶寬,國內能采購的 A800、H800 多卡帶寬為 400 GB/s,落后接近 60%。

 

此外,GPU 產能吃緊,溢價較為嚴重。A100/A800 2023 年上半年的價格相對 2021 年上漲 50%,并且 A100/A800 已停產,NVIDIA 已不再接收 A100/A800 訂單。

 

據 Raymond James 數據,一張 H100 計算卡制造成本為 3320 美元,NVIDIA 以 2.5 萬至 3 萬美元的價格出售給客戶,毛利率高達 1000%,且需求只增不減,H100 已售罄缺貨到 2024 年。在高端算力需求快速增長的情況下,中國廠商將來需要更高效的 GPU 算力的軟硬件優(yōu)化方案解決高端 GPU 短緊缺的情況難題。

 

利用軟硬件優(yōu)化釋放 GPU 資源池算力的過程較為復雜,包含了服務器架構、編譯工具鏈、AI 應用框架、分布式計算、高性能存儲等多個層級。針對各公司自身算力池的優(yōu)化方案,國內大部分廠商若要搭建相應軟件團隊,需要在各個層級都聘請工程師團隊,成本較高。此外,上述軟件系統(tǒng)的運維成本也極其高昂。

 

針對上述情況,算想未來為客戶提供 " 開箱即用 " 的大模型訓練能力和硬件資源管理能力,實現(xiàn)低成本的高端算力服務。未來拓展為訓推一體大模型算力云平臺,為大模型團隊提供一站式算力云平臺解決方案。

 

硬件資源管理能力方面,算想未來為客戶的 GPU 服務器集群搭建基于 Kubernets 的云原生算力平臺。依托來自容器和云原生技術發(fā)源地 Google Borg 的先進 GPU 資源調度算法,提升 GPU 服務器集群的資源使用率。

 

大模型訓練能力方面,與傳統(tǒng)基于單卡的計算任務不同,大模型訓練屬于大規(guī)模分布式計算任務,GPU 在該長時間訓練過程中的故障率高達 5%-20%。一旦 GPU 發(fā)生偶發(fā)性故障,需要工程師手動干預來重啟訓練任務,降低了大模型團隊的研發(fā)效率。

 

第一階段,算想未來目前以 AI 私有云平臺為切入口,針對英偉達 GPU 算力池優(yōu)化進行 GPU I/O 優(yōu)化、集合通信(collective communication)性能等領域進行軟件方面的優(yōu)化。

 

同時通過自動化監(jiān)控監(jiān)測 GPU 運行情況、以及計算任務執(zhí)行情況,客戶可在算想未來平臺上做到容錯調度,實現(xiàn)無人干預的長時間穩(wěn)定訓練的效果,提升大模型團隊研發(fā)效率、加速模型迭代。

 

算想未來已積累到多家種子客戶,主要系擁有自己 GPU 算力池的公司,包括國內知名的 GPU 算力池企業(yè)、地方及國家級人工智能算力中心等。

 

趙亞雄博士表示,算想未來目前的客戶更偏向于擁有算力資源的企業(yè),第二階段公司將開發(fā)分布式大模型算力市場,為大模型團隊和算力提供方提供開放的算力采購、售賣的市場。

 

以 IDC 提供的 A100 集群為例,雖然目前 GPU 較為緊缺,但使用率僅在 30%-60% 之間,存在大量閑置算力。單一的 IDC 廠商主攻軟件優(yōu)化方案將耗費大量人力物力,同時目前軟件營收規(guī)模吸引力較小,IDC 廠商更愿意專注于大客戶的硬件長租業(yè)務,相應成本中小客戶難以承擔,尋找相應軟件合作商成為目前國內 IDC 廠商的主流選擇。

 

此外,算想未來將與公有云廠商合作,將長租公有云 GPU 集群算力,搭配私有云平臺的軟件技術,為客戶提供隨需隨用的高端 GPU 算力;更進一步通過軟件優(yōu)化,將閑置的中低端 GPU(包括國產 GPU)的算力充分釋放,支持大模型推理的算力需求,讓閑置算力擁有者獲得變現(xiàn)渠道。

 

如今 AI 浪潮席卷到中國市場,幾乎所有的主流云廠商、芯片廠商都有做 AI 算力集群、AI 云的嘗試,算想未來如何看待和大廠的競爭?

 

趙亞雄博士表示,算想未來的客戶是迫切尋求大模型工程能力的中小型技術企業(yè),相比主要云廠商主攻大客戶提供 " 勞斯萊斯 ",此類解決方案規(guī)模龐大、功能齊全但是使用困難,中小企業(yè)難以負擔其高昂的成本;算想未來為中小型技術企業(yè)提供 " 隨叫隨到的 Waymo 無人網約車 ",即自動化免運維的大模型算力服務,在中短期內與主流云廠商不發(fā)生直接利益沖突。

 

同時國產 GPU 成熟前,國內進口 GPU 的質量和數量受到限制,國產 GPU 能大規(guī)模商業(yè)化落地還需時日,目前大廠難以實際應用,算想未來通過與國產 GPU 的戰(zhàn)略合作,可以積累到足夠的技術壁壘。

 

當前,算想未來與國產 DPU、GPU 廠商、高??蒲袌F隊簽署合作協(xié)議,開展針對大模型算力需求場景下,適配國產 DPU、GPU 的高性能集合通信算法與軟件 API;同時開展基于國產 GPU 的大模型算力平臺的研發(fā)。

 

其他團隊成員方面,算想未來創(chuàng)始團隊均來自谷歌、華為等企業(yè),具有世界頂尖的 AI 算力平臺研發(fā)經驗。算想未來目前開啟新一輪融資,計劃建立硅谷研發(fā)中心,用于擴充工程師團隊和推進分布式大模型算力市場的商業(yè)化。

 

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com