省心更應(yīng)該省錢(qián),MIT親自下場(chǎng),拒絕“參數(shù)內(nèi)耗”
在人工智能領(lǐng)域,大型模型因其卓越的理解和生成自然語(yǔ)言能力而備受關(guān)注。通過(guò)捕捉和再現(xiàn)人類語(yǔ)言的復(fù)雜性和微妙性,為用戶提供了與機(jī)器自然交談的概率。
然而,這些模型背后的培訓(xùn)過(guò)程因其成本高而備受爭(zhēng)議,不僅涉及資金投入高,還涉及巨大的計(jì)算資源和時(shí)間消耗。此外,一些研究指出,訓(xùn)練一個(gè)先進(jìn)的模型可能需要幾個(gè)星期,并且需要1000多個(gè)甚至上萬(wàn)個(gè)GPU的并行計(jì)算。再加上昂貴的硬件支持,只有高性能GPU和其他特殊硬件的成本才能達(dá)到數(shù)十萬(wàn)甚至數(shù)百萬(wàn)美元。對(duì)大多數(shù)研究機(jī)構(gòu)和個(gè)人來(lái)說(shuō),各種規(guī)模的計(jì)算資源是無(wú)法承受的。
這種資源密集型的發(fā)展方向?qū)е沦Y源獲取不平等。由于資本和資源雄厚,大型科技公司可以更容易地獲得和維護(hù)這些高性能的計(jì)算資源。相比之下,由于資金和資源的限制,小型研究機(jī)構(gòu)和個(gè)人往往很難參與大型研究和開(kāi)發(fā)。因此,如何降低大模型的資源門(mén)檻,使其更加普及和可持續(xù),已經(jīng)成為當(dāng)前研究和實(shí)踐中的一個(gè)重要問(wèn)題。
近日,MIT、全華班團(tuán)隊(duì),如普林斯頓等研究機(jī)構(gòu),帶來(lái)了全新的解決方案——JetMoE-8B,該模型以不到100,000美元的預(yù)算完成了訓(xùn)練,并且涵蓋了125,000億個(gè)token和30,000個(gè)H1000個(gè)。 GPU小時(shí)。
采取多種措施,原地起飛成本效率
JetMoE-8B的關(guān)鍵特征在于它采用了Sparsely。-gated Mixture-of-Experts (SMoE)結(jié)構(gòu)。該結(jié)構(gòu)通過(guò)稀疏激活機(jī)制,促使模型在處理輸入時(shí)只激活必要的參數(shù)值,從而大大降低了計(jì)算成本。據(jù)悉,JetMoE-8B有80億個(gè)參數(shù),但在推理過(guò)程中只激活每個(gè)輸入令牌20億個(gè)參數(shù),使模型在保持性能的同時(shí),將會(huì)計(jì)成本降低約70%。
此外,JetMoE-8B的實(shí)踐策略也頗具創(chuàng)新性。JetMoE-8B的練習(xí)遵循兩個(gè)階段的策略,包括1萬(wàn)億個(gè)token用于大規(guī)模開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集的練習(xí),第二階段用指數(shù)學(xué)習(xí)率下降的練習(xí)。
其中:
一級(jí):預(yù)訓(xùn)練
預(yù)訓(xùn)階段,JetMoE-8B使用了1萬(wàn)億(1.25T)的token,來(lái)自多個(gè)高質(zhì)量的開(kāi)源數(shù)據(jù)集。它涵蓋了從CommonCrawl中獲取并通過(guò)MacroDatatatawl獲取的數(shù)據(jù)。 Refinement (MDR) RefinedWeb管道處理數(shù)據(jù),StarCoder訓(xùn)練數(shù)據(jù),Dolma大型英語(yǔ)文本詞庫(kù),The 與數(shù)學(xué)和編程相關(guān)的Pile和數(shù)據(jù)集。該數(shù)據(jù)為模型提供了豐富多樣的語(yǔ)言和知識(shí)背景,有利于模型學(xué)習(xí)更廣泛的語(yǔ)言模式和知識(shí)。
第二階段:學(xué)習(xí)率衰減
第二階段,模型訓(xùn)練采用指數(shù)學(xué)習(xí)率衰減策略。這意味著隨著訓(xùn)練的進(jìn)行,模型學(xué)習(xí)率會(huì)根據(jù)一定的指數(shù)函數(shù)進(jìn)行調(diào)整,然后逐漸減少。這種策略有利于在練習(xí)初期快速學(xué)習(xí)和調(diào)整模型的權(quán)重,但在訓(xùn)練后期,模型參數(shù)值會(huì)通過(guò)降低學(xué)習(xí)率來(lái)細(xì)化,從而使模型更穩(wěn)定地收斂到最優(yōu)解。
具體來(lái)說(shuō),JetMoE-Warmup用于8B模型-Stable-Decay (WSD) 學(xué)習(xí)調(diào)度器,該調(diào)度器將訓(xùn)練過(guò)程分為預(yù)熱階段三個(gè)階段:(warmup stage)、訓(xùn)練階段穩(wěn)定(stable training stage)和衰減階段(annealing stage)。為了幫助模型快速適應(yīng)訓(xùn)練數(shù)據(jù),在預(yù)熱階段,學(xué)習(xí)率會(huì)逐漸提高到最高值。為了使模型在領(lǐng)先水平上進(jìn)行學(xué)習(xí),穩(wěn)定階段的學(xué)習(xí)率保持一致。最后,在衰減階段,學(xué)習(xí)率會(huì)根據(jù)預(yù)定的指數(shù)函數(shù)進(jìn)行衰減,以便在訓(xùn)練后期對(duì)模型進(jìn)行詳細(xì)的權(quán)重調(diào)整。
另外,R&D部門(mén)為JetMoE-8B模型使用了96個(gè)NVIDIA。 H100 由GPU組成的集群練習(xí)。H100 GPU是一種專門(mén)為AI和深度學(xué)習(xí)任務(wù)設(shè)計(jì)的高性能計(jì)算卡,具有很強(qiáng)的并行計(jì)算能力。通過(guò)將這些GPU組合成一個(gè)集群,JetMoE-8B可以同時(shí)處理大量的數(shù)據(jù)和計(jì)算任務(wù),從而加快訓(xùn)練速度。
JetMoE-8B的另一個(gè)顯著特點(diǎn)是它的開(kāi)放性和易于瀏覽性。通過(guò)公開(kāi)的數(shù)據(jù)集和開(kāi)源訓(xùn)練代碼,任何感興趣的研究人員都可以瀏覽和使用這種模式。這一開(kāi)放不僅促進(jìn)了知識(shí)的共享,也為未來(lái)的研究與合作提供了基礎(chǔ)。
得益于其高效的模型架構(gòu)、精心挑選的數(shù)據(jù)、兩階段的訓(xùn)練策略以及強(qiáng)大的計(jì)算資源和開(kāi)源社區(qū)的支持。各種因素共同促使JetMoE-8B在兩周內(nèi)完成訓(xùn)練,為控制成本帶來(lái)新的思路和目標(biāo)。這也降低了進(jìn)入大型研究領(lǐng)域的門(mén)檻,促使更多的研究機(jī)構(gòu)和個(gè)人參與這一領(lǐng)域的研究。
“卷”大小的時(shí)代已經(jīng)過(guò)去,滿足要求才是王道。
這是一個(gè)參數(shù)較少的模型,JetMoE-8B能更好地發(fā)揮高效率和速度優(yōu)勢(shì),為技術(shù)創(chuàng)新提供強(qiáng)有力的支持。開(kāi)發(fā)者可以在有限的資源下快速迭代和測(cè)試新的想法,這不僅加快了新技術(shù)的研發(fā)過(guò)程,也為市場(chǎng)上的創(chuàng)新應(yīng)用提供了更多的概率。特別是由于這種高成本、高效率的R&D環(huán)境,小企業(yè)和初創(chuàng)企業(yè)可以探索和實(shí)現(xiàn)自己的創(chuàng)新理念,風(fēng)險(xiǎn)和成本更低。
參數(shù)規(guī)模并不是衡量模型價(jià)值的唯一標(biāo)準(zhǔn),在模型主導(dǎo)的市場(chǎng)趨勢(shì)下。事實(shí)上,隨著物聯(lián)網(wǎng)設(shè)備的普遍部署,對(duì)小參數(shù)模型的需求越來(lái)越大,可以在有限的資源環(huán)境中高效運(yùn)行。這些設(shè)備一般對(duì)計(jì)算能力和存儲(chǔ)空間有嚴(yán)格的限制,而小參數(shù)模型正好可以滿足這些條件,實(shí)現(xiàn)快速響應(yīng)和實(shí)時(shí)數(shù)據(jù)處理能力。
據(jù)悉,去年年底,Meta推出了Llama。 Llamamama模型的小版本 2 另外,谷歌還在2月推出了Gemma系列模型,法國(guó)AI公司Mistral也推出了Mistral。 7B模型。

針對(duì)特定應(yīng)用場(chǎng)景的定制小參數(shù)模型,逐步成為研發(fā)的新趨勢(shì)。研究人員專注于為特定任務(wù)量身定制輕量級(jí)模型。這些模型不僅可以保證高效率,還可以優(yōu)化自然語(yǔ)言理解、圖像識(shí)別等特定領(lǐng)域。這種有針對(duì)性的設(shè)計(jì)不僅提高了模型性能,而且使其能夠更好地滿足多樣化的應(yīng)用需求。
值得注意的是,小參數(shù)模型不僅在技術(shù)創(chuàng)新領(lǐng)域掀起了波瀾,而且在商業(yè)模式和市場(chǎng)策略上也發(fā)生了深刻的變化。對(duì)于中小企業(yè)來(lái)說(shuō),他們不需要投入巨額資金就可以通過(guò)使用這些模型來(lái)提升自己的產(chǎn)品和服務(wù)。這種高成本、高效率的解決方案使其商業(yè)應(yīng)用更加普遍和多樣化。
在市場(chǎng)策略方面,小模型的推出也反映了公司對(duì)消費(fèi)者需求的深刻理解。隨著消費(fèi)者對(duì)人工智能技術(shù)的理解和接受程度的提高,他們開(kāi)始尋求更實(shí)用、更經(jīng)濟(jì)的AI解決方案。小模型正好滿足了這個(gè)需求,提供了更經(jīng)濟(jì)的選擇,同時(shí)保證了性能。
大型家庭認(rèn)為AI技術(shù)越來(lái)越受歡迎和可訪問(wèn),這也意味著AI的應(yīng)用范圍在不斷擴(kuò)大。隨著技術(shù)的進(jìn)步和模型的優(yōu)化,未來(lái)市場(chǎng)上會(huì)出現(xiàn)更多輕便高效的模型,為用戶提供更多的選擇和便利。
本文來(lái)自微信微信官方賬號(hào)“大模型世家”(ID:damoaihome),作者:興哲,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





