欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

省心更應(yīng)該省錢(qián)，MIT親自下場(chǎng)，拒絕“參數(shù)內(nèi)耗”

2024-04-22

在人工智能領(lǐng)域，大型模型因其卓越的理解和生成自然語(yǔ)言能力而備受關(guān)注。通過(guò)捕捉和再現(xiàn)人類語(yǔ)言的復(fù)雜性和微妙性，為用戶提供了與機(jī)器自然交談的概率。

然而，這些模型背后的培訓(xùn)過(guò)程因其成本高而備受爭(zhēng)議，不僅涉及資金投入高，還涉及巨大的計(jì)算資源和時(shí)間消耗。此外，一些研究指出，訓(xùn)練一個(gè)先進(jìn)的模型可能需要幾個(gè)星期，并且需要1000多個(gè)甚至上萬(wàn)個(gè)GPU的并行計(jì)算。再加上昂貴的硬件支持，只有高性能GPU和其他特殊硬件的成本才能達(dá)到數(shù)十萬(wàn)甚至數(shù)百萬(wàn)美元。對(duì)大多數(shù)研究機(jī)構(gòu)和個(gè)人來(lái)說(shuō)，各種規(guī)模的計(jì)算資源是無(wú)法承受的。

這種資源密集型的發(fā)展方向?qū)е沦Y源獲取不平等。由于資本和資源雄厚，大型科技公司可以更容易地獲得和維護(hù)這些高性能的計(jì)算資源。相比之下，由于資金和資源的限制，小型研究機(jī)構(gòu)和個(gè)人往往很難參與大型研究和開(kāi)發(fā)。因此，如何降低大模型的資源門(mén)檻，使其更加普及和可持續(xù)，已經(jīng)成為當(dāng)前研究和實(shí)踐中的一個(gè)重要問(wèn)題。

近日，MIT、全華班團(tuán)隊(duì)，如普林斯頓等研究機(jī)構(gòu)，帶來(lái)了全新的解決方案——JetMoE-8B，該模型以不到100,000美元的預(yù)算完成了訓(xùn)練，并且涵蓋了125,000億個(gè)token和30,000個(gè)H1000個(gè)。 GPU小時(shí)。

采取多種措施，原地起飛成本效率

JetMoE-8B的關(guān)鍵特征在于它采用了Sparsely。-gated Mixture-of-Experts (SMoE)結(jié)構(gòu)。該結(jié)構(gòu)通過(guò)稀疏激活機(jī)制，促使模型在處理輸入時(shí)只激活必要的參數(shù)值，從而大大降低了計(jì)算成本。據(jù)悉，JetMoE-8B有80億個(gè)參數(shù)，但在推理過(guò)程中只激活每個(gè)輸入令牌20億個(gè)參數(shù)，使模型在保持性能的同時(shí)，將會(huì)計(jì)成本降低約70%。

此外，JetMoE-8B的實(shí)踐策略也頗具創(chuàng)新性。JetMoE-8B的練習(xí)遵循兩個(gè)階段的策略，包括1萬(wàn)億個(gè)token用于大規(guī)模開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集的練習(xí)，第二階段用指數(shù)學(xué)習(xí)率下降的練習(xí)。

其中：

一級(jí)：預(yù)訓(xùn)練

預(yù)訓(xùn)階段，JetMoE-8B使用了1萬(wàn)億(1.25T)的token，來(lái)自多個(gè)高質(zhì)量的開(kāi)源數(shù)據(jù)集。它涵蓋了從CommonCrawl中獲取并通過(guò)MacroDatatatawl獲取的數(shù)據(jù)。 Refinement (MDR) RefinedWeb管道處理數(shù)據(jù)，StarCoder訓(xùn)練數(shù)據(jù)，Dolma大型英語(yǔ)文本詞庫(kù)，The 與數(shù)學(xué)和編程相關(guān)的Pile和數(shù)據(jù)集。該數(shù)據(jù)為模型提供了豐富多樣的語(yǔ)言和知識(shí)背景，有利于模型學(xué)習(xí)更廣泛的語(yǔ)言模式和知識(shí)。

第二階段：學(xué)習(xí)率衰減

第二階段，模型訓(xùn)練采用指數(shù)學(xué)習(xí)率衰減策略。這意味著隨著訓(xùn)練的進(jìn)行，模型學(xué)習(xí)率會(huì)根據(jù)一定的指數(shù)函數(shù)進(jìn)行調(diào)整，然后逐漸減少。這種策略有利于在練習(xí)初期快速學(xué)習(xí)和調(diào)整模型的權(quán)重，但在訓(xùn)練后期，模型參數(shù)值會(huì)通過(guò)降低學(xué)習(xí)率來(lái)細(xì)化，從而使模型更穩(wěn)定地收斂到最優(yōu)解。

具體來(lái)說(shuō)，JetMoE-Warmup用于8B模型-Stable-Decay (WSD) 學(xué)習(xí)調(diào)度器，該調(diào)度器將訓(xùn)練過(guò)程分為預(yù)熱階段三個(gè)階段：（warmup stage）、訓(xùn)練階段穩(wěn)定（stable training stage）和衰減階段（annealing stage）。為了幫助模型快速適應(yīng)訓(xùn)練數(shù)據(jù)，在預(yù)熱階段，學(xué)習(xí)率會(huì)逐漸提高到最高值。為了使模型在領(lǐng)先水平上進(jìn)行學(xué)習(xí)，穩(wěn)定階段的學(xué)習(xí)率保持一致。最后，在衰減階段，學(xué)習(xí)率會(huì)根據(jù)預(yù)定的指數(shù)函數(shù)進(jìn)行衰減，以便在訓(xùn)練后期對(duì)模型進(jìn)行詳細(xì)的權(quán)重調(diào)整。

另外，R&D部門(mén)為JetMoE-8B模型使用了96個(gè)NVIDIA。 H100 由GPU組成的集群練習(xí)。H100 GPU是一種專門(mén)為AI和深度學(xué)習(xí)任務(wù)設(shè)計(jì)的高性能計(jì)算卡，具有很強(qiáng)的并行計(jì)算能力。通過(guò)將這些GPU組合成一個(gè)集群，JetMoE-8B可以同時(shí)處理大量的數(shù)據(jù)和計(jì)算任務(wù)，從而加快訓(xùn)練速度。

JetMoE-8B的另一個(gè)顯著特點(diǎn)是它的開(kāi)放性和易于瀏覽性。通過(guò)公開(kāi)的數(shù)據(jù)集和開(kāi)源訓(xùn)練代碼，任何感興趣的研究人員都可以瀏覽和使用這種模式。這一開(kāi)放不僅促進(jìn)了知識(shí)的共享，也為未來(lái)的研究與合作提供了基礎(chǔ)。

得益于其高效的模型架構(gòu)、精心挑選的數(shù)據(jù)、兩階段的訓(xùn)練策略以及強(qiáng)大的計(jì)算資源和開(kāi)源社區(qū)的支持。各種因素共同促使JetMoE-8B在兩周內(nèi)完成訓(xùn)練，為控制成本帶來(lái)新的思路和目標(biāo)。這也降低了進(jìn)入大型研究領(lǐng)域的門(mén)檻，促使更多的研究機(jī)構(gòu)和個(gè)人參與這一領(lǐng)域的研究。

“卷”大小的時(shí)代已經(jīng)過(guò)去，滿足要求才是王道。

這是一個(gè)參數(shù)較少的模型，JetMoE-8B能更好地發(fā)揮高效率和速度優(yōu)勢(shì)，為技術(shù)創(chuàng)新提供強(qiáng)有力的支持。開(kāi)發(fā)者可以在有限的資源下快速迭代和測(cè)試新的想法，這不僅加快了新技術(shù)的研發(fā)過(guò)程，也為市場(chǎng)上的創(chuàng)新應(yīng)用提供了更多的概率。特別是由于這種高成本、高效率的R&D環(huán)境，小企業(yè)和初創(chuàng)企業(yè)可以探索和實(shí)現(xiàn)自己的創(chuàng)新理念，風(fēng)險(xiǎn)和成本更低。

參數(shù)規(guī)模并不是衡量模型價(jià)值的唯一標(biāo)準(zhǔn)，在模型主導(dǎo)的市場(chǎng)趨勢(shì)下。事實(shí)上，隨著物聯(lián)網(wǎng)設(shè)備的普遍部署，對(duì)小參數(shù)模型的需求越來(lái)越大，可以在有限的資源環(huán)境中高效運(yùn)行。這些設(shè)備一般對(duì)計(jì)算能力和存儲(chǔ)空間有嚴(yán)格的限制，而小參數(shù)模型正好可以滿足這些條件，實(shí)現(xiàn)快速響應(yīng)和實(shí)時(shí)數(shù)據(jù)處理能力。

據(jù)悉，去年年底，Meta推出了Llama。 Llamamama模型的小版本 2 另外，谷歌還在2月推出了Gemma系列模型，法國(guó)AI公司Mistral也推出了Mistral。 7B模型。

針對(duì)特定應(yīng)用場(chǎng)景的定制小參數(shù)模型，逐步成為研發(fā)的新趨勢(shì)。研究人員專注于為特定任務(wù)量身定制輕量級(jí)模型。這些模型不僅可以保證高效率，還可以優(yōu)化自然語(yǔ)言理解、圖像識(shí)別等特定領(lǐng)域。這種有針對(duì)性的設(shè)計(jì)不僅提高了模型性能，而且使其能夠更好地滿足多樣化的應(yīng)用需求。

值得注意的是，小參數(shù)模型不僅在技術(shù)創(chuàng)新領(lǐng)域掀起了波瀾，而且在商業(yè)模式和市場(chǎng)策略上也發(fā)生了深刻的變化。對(duì)于中小企業(yè)來(lái)說(shuō)，他們不需要投入巨額資金就可以通過(guò)使用這些模型來(lái)提升自己的產(chǎn)品和服務(wù)。這種高成本、高效率的解決方案使其商業(yè)應(yīng)用更加普遍和多樣化。

在市場(chǎng)策略方面，小模型的推出也反映了公司對(duì)消費(fèi)者需求的深刻理解。隨著消費(fèi)者對(duì)人工智能技術(shù)的理解和接受程度的提高，他們開(kāi)始尋求更實(shí)用、更經(jīng)濟(jì)的AI解決方案。小模型正好滿足了這個(gè)需求，提供了更經(jīng)濟(jì)的選擇，同時(shí)保證了性能。

大型家庭認(rèn)為AI技術(shù)越來(lái)越受歡迎和可訪問(wèn)，這也意味著AI的應(yīng)用范圍在不斷擴(kuò)大。隨著技術(shù)的進(jìn)步和模型的優(yōu)化，未來(lái)市場(chǎng)上會(huì)出現(xiàn)更多輕便高效的模型，為用戶提供更多的選擇和便利。

本文來(lái)自微信微信官方賬號(hào)“大模型世家”（ID:damoaihome），作者：興哲，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

亞洲貨幣大戰(zhàn):印尼盾4年新低，越南盾記錄新低，韓國(guó)罕見(jiàn)警告，韓元大幅上漲

年青人需要什么樣的出境游商品？

OpenAI、谷歌上演了一場(chǎng)搶人大戰(zhàn)，馬斯克大呼“史上最瘋狂”

大型時(shí)代的芯片，要怎么造？

謹(jǐn)慎，謹(jǐn)慎，不要再進(jìn)入小酒館了。