計(jì)算率不足,小模型成為AI模型發(fā)展的下一個(gè)方向?
在此期間,AI模型行業(yè)真的很熱鬧,新模型不斷涌現(xiàn)。無論是開源還是閉源,成績(jī)都在刷新。就在幾天前,Meta上演了一場(chǎng)“奪回開源鐵王座”的好戲。Llama發(fā)布 3 在許多指標(biāo)上,8B和70B兩個(gè)版本都超越了以前開源的Grok-1和DBRX,成為新的開源模型之王。
此外,Meta還表示,Llamamama未來將推出400B版本。 它的測(cè)試結(jié)果在許多方面都趕上了OpenAI閉源的GPT-4,讓許多人大呼,開源版的GPT-4即將到來。盡管從參數(shù)來看,與Llama相比, 2,Llama 3并沒有特別大的提高,但是在某些表現(xiàn)上,Llama 最小的8B版本都比Llama 2 70B要好??梢钥闯?,模型性能的提高,并非只有堆參數(shù)這種做法。
01 Llama 第三,回到開源第一
“真的,當(dāng)?shù)貢r(shí)間4月18日,”·OpenAI"-Meta跑出了目前開源最強(qiáng)的大型Llamama模型。 3。這次Meta發(fā)布了兩個(gè)開源的Llamama。 3 8B和Llama 3 70B模型。按照Meta的說法,Llamama這兩個(gè)版本 3是目前同規(guī)模下性能最佳的開源模式。而且在某些數(shù)據(jù)方面,Llama 3 與Llamama相比,8B的性能 2 70B更強(qiáng),要知道,兩者的參數(shù)卻相差一個(gè)數(shù)量級(jí)。
也許是因?yàn)長(zhǎng)lamama才能做到這一點(diǎn)。 3是基于15T以上的練習(xí)效率高3倍。 與Llamamama相比,token訓(xùn)練 2數(shù)據(jù)集的7倍以上。在MMLU、ARC、DROP等基準(zhǔn)測(cè)試,Llama 3 在九項(xiàng)檢測(cè)中,8B領(lǐng)先于同行,Llama 3 同樣,70B也擊敗了Gemini。 1.5 Pro和Claude 3 Sonnet。
盡管參數(shù)沒有特別大的增加,但毫無疑問,Llama 3的性能取得了很大的進(jìn)步,可以算是用類似的參數(shù)獲得了更好的性能,這可能是在計(jì)算資源短期內(nèi)無法滿足更大規(guī)模計(jì)算的情況下做出的選擇,但這反映出AI模型的研發(fā)不僅僅是積累參數(shù)的“大力創(chuàng)造奇跡”之路。
02 把大模型做成小正成行業(yè)共識(shí)。
實(shí)際上,Llama 三個(gè)開源王之間有兩個(gè),Grok-1和DBRX也致力于將模型做小。不同于以往的大模型,使用一種模型來解決所有問題,Grok-1和DBRX都采用MoE架構(gòu)(專家模型架構(gòu)),在面對(duì)不同問題時(shí),調(diào)用不同的小模型來解決問題,從而保證答案的質(zhì)量,同時(shí)節(jié)省計(jì)算能力。
而且微軟也在Llama 3發(fā)布后不久,就出手截胡,展示了Phi-3系列小模型的技術(shù)報(bào)告。只有3.8B參數(shù)Phi-3-mini在這份報(bào)告中超過了Llamamama。 3 為方便開源社區(qū)使用,8B還專門將其設(shè)計(jì)成與Llama系列相兼容的結(jié)構(gòu)。更加夸張的是,這款微軟模型,也可以直接在手機(jī)上運(yùn)行,經(jīng)過4bit量化后的phi-3-mini。iPhone 14 pro和iPhone 蘋果A16芯片15可以跑到每秒12。 token,也就是說,現(xiàn)在手機(jī)上可以在當(dāng)?shù)剡\(yùn)行的最佳開源模式,已經(jīng)達(dá)到了ChatGPT水平。
除mini杯外,微軟還發(fā)布了小杯和中杯,7B參數(shù)Phi-3-small和14B參數(shù)Phi-3--medium。在技術(shù)報(bào)告中,微軟還表示,去年的研究團(tuán)隊(duì)發(fā)現(xiàn),單純積累參數(shù)并不是提高模型特性的唯一途徑,而是精心策劃和訓(xùn)練的數(shù)據(jù),尤其是利用大模型本身生成和生成數(shù)據(jù),并配合嚴(yán)格過濾的優(yōu)質(zhì)數(shù)據(jù),可以大大提高中小模型的能力,所以他們也表示,Textbooks are all you need,高質(zhì)量的教科書級(jí)別數(shù)據(jù)非常重要。

03 AI模型的發(fā)展正在努力擺脫限制
自從英偉達(dá)乘著AI的東風(fēng)以來,它已經(jīng)成為業(yè)內(nèi)最好的一個(gè),名副其實(shí)的“賣鏟子的人”。所有的AI公司都把英偉達(dá)的GPU當(dāng)成了“硬通貨”,以至于誰囤積了更多的英偉達(dá)的GPU,誰的AI實(shí)力就會(huì)很強(qiáng)。然而,英偉達(dá)的GPU交付并沒有一直跟上市場(chǎng)需求。
所以,很多AI公司開始另謀出路,要么找其它GPU制造商,要么決定自己開發(fā)AI芯片。即使你已經(jīng)儲(chǔ)存了足夠的英偉達(dá)GPU,還有其他限制。前段時(shí)間OpenAI被曝光。因?yàn)镚PT-6的訓(xùn)練,微軟的電網(wǎng)差點(diǎn)癱瘓。馬斯克還表示,目前限制AI發(fā)展的主要因素是計(jì)算資源,但是在未來,電力將成為限制AI發(fā)展的另一個(gè)障礙。
顯然,如果我們繼續(xù)“大力創(chuàng)造奇跡”,通過積累參數(shù)來提高AI性能,這些問題最終會(huì)遇到。但是,如果我們把大模型做小,使用小參數(shù)來實(shí)現(xiàn)相同或更好的性能,我們可以顯著減少對(duì)計(jì)算率資源的需求,從而減少對(duì)電力資源的消耗,從而使AI在有限的資源下得到更好的發(fā)展。
所以,下一步,誰能在把模型做小的同時(shí),也能實(shí)現(xiàn)特性的增長(zhǎng),也是實(shí)力的體現(xiàn)。
本文來自微信微信官方賬號(hào)“新火源”(ID:gh作者:一號(hào),36氪經(jīng)授權(quán)發(fā)布,_838b518e4b33。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





