欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

微軟發(fā)布3nm自研AI芯片Maia 200,算力超10PFLOPS,性能領(lǐng)先行業(yè)

01-28 06:39
HBM3e容量達(dá)216GB、讀寫速度達(dá)7TB/s。

芯東西1月27日報道,今日,微軟宣布推出自研AI推理芯片Maia 200,稱其為“目前所有超大規(guī)模數(shù)據(jù)中心中性能最高的自研芯片”,旨在大幅提升AI token生成的經(jīng)濟效益。


Maia 200采用臺積電3nm工藝制造,晶體管數(shù)量超1400億顆,配備原生FP8/FP4張量核心,內(nèi)存子系統(tǒng)經(jīng)過重新設(shè)計,包含216GB HBM3e(讀寫速度高達(dá)7TB/s)和272MB片上SRAM,還具備能保障海量模型快速高效運行的數(shù)據(jù)傳輸引擎。


這款芯片專為采用低精度計算的最新模型打造,在FP4精度下每塊芯片性能超10PFLOPS,F(xiàn)P8精度下超5PFLOPS,且SoC TDP控制在750W范圍內(nèi)。


其FP4性能是亞馬遜自研AI芯片AWS Trainium3的3倍多,F(xiàn)P8性能超過谷歌TPU v7。



▲Azure Maia 200、AWS Trainium3、谷歌TPU v7的峰值規(guī)格對比


Maia 200的內(nèi)存子系統(tǒng)以窄精度數(shù)據(jù)類型、專用DMA引擎、片上SRAM和高帶寬數(shù)據(jù)傳輸專用片上網(wǎng)絡(luò)(NoC)架構(gòu)為核心,以此提升token吞吐量。


互連方面,Maia 200提供2.8TB/s雙向?qū)S脭U展帶寬,高于AWS Trainium3的2.56TB/s和谷歌TPU v7的1.2TB/s。


它也是微軟目前部署的最高效推理系統(tǒng),每美元性能比微軟現(xiàn)有最新一代硬件提升30%。


01.


可運行當(dāng)前最大模型,


將支持GPT-5.2


據(jù)微軟博客文章,Maia 200能輕松運行當(dāng)今最大的模型,還為未來更大模型預(yù)留了充足性能空間。


作為微軟異構(gòu)AI基礎(chǔ)設(shè)施的一部分,Maia 200將支持多種模型,包括OpenAI最新的GPT-5.2模型,為Microsoft Foundry和Microsoft 365 Copilot帶來更高性價比。



▲Maia 200芯片


Maia 200與微軟Azure無縫集成。微軟正在預(yù)覽Maia軟件開發(fā)工具包(SDK),其中包含一套完整工具,用于構(gòu)建和優(yōu)化Maia 200模型。


該SDK具備全套功能,包括PyTorch集成、Triton編譯器、優(yōu)化的內(nèi)核庫,以及對Maia底層編程語言的訪問權(quán)限。這讓開發(fā)者在需要時能進(jìn)行細(xì)粒度控制,同時實現(xiàn)跨異構(gòu)硬件加速器的輕松模型移植。


微軟超級智能團(tuán)隊將利用Maia 200開展合成數(shù)據(jù)生成強化學(xué)習(xí),以改進(jìn)下一代內(nèi)部模型。


在合成數(shù)據(jù)管道用例中,Maia 200的獨特設(shè)計有助于加快高質(zhì)量、特定領(lǐng)域數(shù)據(jù)的生成和篩選速度,為下游訓(xùn)練提供更新、更具針對性的信號。


Maia 200已部署在微軟位于愛荷華州得梅因附近的美國中部數(shù)據(jù)中心區(qū)域,接下來將部署到亞利桑那州鳳凰城附近的美國西部3數(shù)據(jù)中心區(qū)域,未來還會部署更多區(qū)域。


02.


支持2.8TB/s雙向帶寬、


6144塊芯片互連


系統(tǒng)層面,Maia 200引入了基于標(biāo)準(zhǔn)以太網(wǎng)的新型雙層可擴展網(wǎng)絡(luò)設(shè)計。定制傳輸層和緊密集成的網(wǎng)卡無需依賴專有架構(gòu),就能實現(xiàn)卓越性能、高可靠性和顯著成本優(yōu)勢。


每塊芯片提供2.8TB/s雙向?qū)S脭U展帶寬,還能在多達(dá)6144塊芯片的集群上實現(xiàn)可預(yù)測的高性能集體操作。



▲Maia 200刀片服務(wù)器的俯視圖


每個托架內(nèi),4塊Maia芯片通過直接非交換鏈路完全連接,實現(xiàn)高帶寬本地通信,以獲取最佳推理效率。


機架內(nèi)和機架間聯(lián)網(wǎng)均采用相同通信協(xié)議——Maia AI傳輸協(xié)議,能以最小網(wǎng)絡(luò)跳數(shù)實現(xiàn)跨節(jié)點、機架和加速器集群的無縫擴展。


這種統(tǒng)一架構(gòu)簡化了編程,提高了工作負(fù)載靈活性,減少了閑置容量,同時在云規(guī)模下保持一致的性能和成本效益。


該架構(gòu)可為密集推理集群提供可擴展性能,同時降低Azure全球集群的功耗和總擁有成本。


03.


芯片部署時間縮短一半,


提升每美元和每瓦性能


Maia 200芯片首批封裝件到貨后數(shù)日內(nèi),AI模型就能在其上運行,從首批芯片到首個數(shù)據(jù)中心機架部署的時間可縮短至同類AI基礎(chǔ)設(shè)施項目的一半以上。


這種從芯片到軟件再到數(shù)據(jù)中心的端到端解決方案,直接轉(zhuǎn)化為更高的資源利用率、更快的生產(chǎn)交付速度,以及云規(guī)模下持續(xù)提升的每美元和每瓦性能。



▲Maia 200機架和HXU冷卻單元的視圖


這得益于微軟芯片開發(fā)計劃的核心原則:在最終芯片上市前,盡可能多地驗證端到端系統(tǒng)。


從架構(gòu)早期階段開始,一套精密的芯片前開發(fā)環(huán)境就指導(dǎo)著Maia 200的開發(fā),它能高保真模擬大語言模型的計算和通信模式。


這種早期協(xié)同開發(fā)環(huán)境讓微軟能在首塊芯片問世前,將芯片、網(wǎng)絡(luò)和系統(tǒng)軟件作為一個整體進(jìn)行優(yōu)化。


微軟從設(shè)計之初就將Maia 200定位為數(shù)據(jù)中心內(nèi)快速、無縫的可用性解決方案,并對包括后端網(wǎng)絡(luò)和第二代閉環(huán)液冷熱交換器單元在內(nèi)的一些最復(fù)雜系統(tǒng)組件進(jìn)行了早期驗證。


與Azure控制平面的原生集成,可在芯片和機架級別提供安全、遙測、診斷和管理功能,最大限度提高生產(chǎn)關(guān)鍵型AI工作負(fù)載的可靠性和正常運行時間。


04.


結(jié)語:全球基礎(chǔ)設(shè)施部署,


為未來AI系統(tǒng)筑基


大規(guī)模AI時代才剛開啟,基礎(chǔ)設(shè)施將決定其發(fā)展可能性。


隨著微軟在全球基礎(chǔ)設(shè)施中部署Maia 200,微軟已在為未來幾代AI系統(tǒng)進(jìn)行設(shè)計,期望每一代系統(tǒng)都能不斷樹立新標(biāo)桿,為重要AI工作負(fù)載帶來更出色的性能和效率。


微軟誠邀開發(fā)者、AI創(chuàng)企和學(xué)術(shù)界人士使用全新Maia 200 SDK,開始探索早期模型和工作負(fù)載優(yōu)化。


該SDK包含Triton編譯器、PyTorch支持、NPL底層編程以及Maia模擬器和成本計算器,可在代碼生命周期早期階段優(yōu)化效率。


本文來自微信公眾號“芯東西”,作者:ZeR0,編輯:漠影,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com