欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

計(jì)算率不足，小模型成為AI模型發(fā)展的下一個(gè)方向？

2024-04-29

在此期間，AI模型行業(yè)真的很熱鬧，新模型不斷涌現(xiàn)。無論是開源還是閉源，成績(jī)都在刷新。就在幾天前，Meta上演了一場(chǎng)“奪回開源鐵王座”的好戲。Llama發(fā)布 3 在許多指標(biāo)上，8B和70B兩個(gè)版本都超越了以前開源的Grok-1和DBRX，成為新的開源模型之王。

此外，Meta還表示，Llamamama未來將推出400B版本。它的測(cè)試結(jié)果在許多方面都趕上了OpenAI閉源的GPT-4，讓許多人大呼，開源版的GPT-4即將到來。盡管從參數(shù)來看，與Llama相比， 2，Llama 3并沒有特別大的提高，但是在某些表現(xiàn)上，Llama 最小的8B版本都比Llama 2 70B要好?？梢钥闯?，模型性能的提高，并非只有堆參數(shù)這種做法。

01 Llama 第三，回到開源第一

“真的，當(dāng)?shù)貢r(shí)間4月18日，”·OpenAI"-Meta跑出了目前開源最強(qiáng)的大型Llamama模型。 3。這次Meta發(fā)布了兩個(gè)開源的Llamama。 3 8B和Llama 3 70B模型。按照Meta的說法，Llamama這兩個(gè)版本 3是目前同規(guī)模下性能最佳的開源模式。而且在某些數(shù)據(jù)方面，Llama 3 與Llamama相比，8B的性能 2 70B更強(qiáng)，要知道，兩者的參數(shù)卻相差一個(gè)數(shù)量級(jí)。

也許是因?yàn)長(zhǎng)lamama才能做到這一點(diǎn)。 3是基于15T以上的練習(xí)效率高3倍。與Llamamama相比，token訓(xùn)練 2數(shù)據(jù)集的7倍以上。在MMLU、ARC、DROP等基準(zhǔn)測(cè)試，Llama 3 在九項(xiàng)檢測(cè)中，8B領(lǐng)先于同行，Llama 3 同樣，70B也擊敗了Gemini。 1.5 Pro和Claude 3 Sonnet。

盡管參數(shù)沒有特別大的增加，但毫無疑問，Llama 3的性能取得了很大的進(jìn)步，可以算是用類似的參數(shù)獲得了更好的性能，這可能是在計(jì)算資源短期內(nèi)無法滿足更大規(guī)模計(jì)算的情況下做出的選擇，但這反映出AI模型的研發(fā)不僅僅是積累參數(shù)的“大力創(chuàng)造奇跡”之路。

02 把大模型做成小正成行業(yè)共識(shí)。

實(shí)際上，Llama 三個(gè)開源王之間有兩個(gè)，Grok-1和DBRX也致力于將模型做小。不同于以往的大模型，使用一種模型來解決所有問題，Grok-1和DBRX都采用MoE架構(gòu)(專家模型架構(gòu))，在面對(duì)不同問題時(shí)，調(diào)用不同的小模型來解決問題，從而保證答案的質(zhì)量，同時(shí)節(jié)省計(jì)算能力。

而且微軟也在Llama 3發(fā)布后不久，就出手截胡，展示了Phi-3系列小模型的技術(shù)報(bào)告。只有3.8B參數(shù)Phi-3-mini在這份報(bào)告中超過了Llamamama。 3 為方便開源社區(qū)使用，8B還專門將其設(shè)計(jì)成與Llama系列相兼容的結(jié)構(gòu)。更加夸張的是，這款微軟模型，也可以直接在手機(jī)上運(yùn)行，經(jīng)過4bit量化后的phi-3-mini。iPhone 14 pro和iPhone 蘋果A16芯片15可以跑到每秒12。 token，也就是說，現(xiàn)在手機(jī)上可以在當(dāng)?shù)剡\(yùn)行的最佳開源模式，已經(jīng)達(dá)到了ChatGPT水平。

除mini杯外，微軟還發(fā)布了小杯和中杯，7B參數(shù)Phi-3-small和14B參數(shù)Phi-3--medium。在技術(shù)報(bào)告中，微軟還表示，去年的研究團(tuán)隊(duì)發(fā)現(xiàn)，單純積累參數(shù)并不是提高模型特性的唯一途徑，而是精心策劃和訓(xùn)練的數(shù)據(jù)，尤其是利用大模型本身生成和生成數(shù)據(jù)，并配合嚴(yán)格過濾的優(yōu)質(zhì)數(shù)據(jù)，可以大大提高中小模型的能力，所以他們也表示，Textbooks are all you need，高質(zhì)量的教科書級(jí)別數(shù)據(jù)非常重要。

03 AI模型的發(fā)展正在努力擺脫限制

自從英偉達(dá)乘著AI的東風(fēng)以來，它已經(jīng)成為業(yè)內(nèi)最好的一個(gè)，名副其實(shí)的“賣鏟子的人”。所有的AI公司都把英偉達(dá)的GPU當(dāng)成了“硬通貨”，以至于誰囤積了更多的英偉達(dá)的GPU，誰的AI實(shí)力就會(huì)很強(qiáng)。然而，英偉達(dá)的GPU交付并沒有一直跟上市場(chǎng)需求。

所以，很多AI公司開始另謀出路，要么找其它GPU制造商，要么決定自己開發(fā)AI芯片。即使你已經(jīng)儲(chǔ)存了足夠的英偉達(dá)GPU，還有其他限制。前段時(shí)間OpenAI被曝光。因?yàn)镚PT-6的訓(xùn)練，微軟的電網(wǎng)差點(diǎn)癱瘓。馬斯克還表示，目前限制AI發(fā)展的主要因素是計(jì)算資源，但是在未來，電力將成為限制AI發(fā)展的另一個(gè)障礙。

顯然，如果我們繼續(xù)“大力創(chuàng)造奇跡”，通過積累參數(shù)來提高AI性能，這些問題最終會(huì)遇到。但是，如果我們把大模型做小，使用小參數(shù)來實(shí)現(xiàn)相同或更好的性能，我們可以顯著減少對(duì)計(jì)算率資源的需求，從而減少對(duì)電力資源的消耗，從而使AI在有限的資源下得到更好的發(fā)展。

所以，下一步，誰能在把模型做小的同時(shí)，也能實(shí)現(xiàn)特性的增長(zhǎng)，也是實(shí)力的體現(xiàn)。

本文來自微信微信官方賬號(hào)“新火源”（ID:gh作者：一號(hào)，36氪經(jīng)授權(quán)發(fā)布，_838b518e4b33。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

一大波游戲公司被帶進(jìn)坑里：爆紅一年，卻有90%血本無歸？

咱們坐在高高的“谷堆”上，聽他們講過去的事。

兩周年的話梅華中首店，產(chǎn)品類型不如以前。

暴雨天氣，外出請(qǐng)注意?！?

警察一把抓住了手機(jī) 保住16萬元！

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂