大型一對一作戰(zhàn)75萬輪,GPT-4奪冠,Llama 3位居第五
有關Llama 三是有新發(fā)布的檢測結果?!?/p>
LMSYS大模型評估社區(qū)發(fā)布了一份大模型排行榜,Llama 第三名是第五名,英語單項和GPT-4并列第一。
與其它Benchmark不同的是,這個列表的基礎是模型一對一的battle,由全網評估者自己出題并進行評分。
最后,Llama 3在排行榜上獲得第五名,排名第一的是GPT-4的三個不同版本,以及Claude 超級大杯Opus。
但是在英語單項列表中,Llama 3超越Claude,與GPT-4打成平局。
Meta的首席科學家LeCun非常高興地轉發(fā)了這篇文章,并留下了一篇“Nice”。
SoumithPyTorch鼻祖 Chintala也興奮地表示,這一成就令人驚嘆,并為Meta感到自豪。
Llama 3的400B版本還沒有出來,僅僅依靠70B參數(shù)就獲得了第五名...我還記得去年3月GPT-4發(fā)布的時候,幾乎不可能達到和它一樣的表現(xiàn)。..........現(xiàn)在AI的普及真的很不可思議,我對Meta AI的同事們?yōu)檫@樣的成功感到非常自豪。
所以,這個列表的具體結果是什么呢?
近90個模型對戰(zhàn)75萬輪。
在最新名單發(fā)布之前,LMSYS已經收集了近75萬個大模型solo對戰(zhàn)結果,其中涉及的模型達到了89個。
其中,Llama 3有1.27萬次參加,GPT-四是有多個不同的版本,最多參與68,000次。

下圖顯示了一些熱門模型的比賽頻率和勝率,圖中的兩個指標也沒有統(tǒng)計平手次數(shù)。
在列表方面,LMSYS分為列表和多個子列表,GPT-4-Turbo排名第一,與之并列的是早期1106版本,以及Claude。 超級大杯Opus。
另外一個版本(0125)的GPT-4位居后,接下來是Llamama。 3了。
不過更有意思的是,比較新的0125,表現(xiàn)還不如老版本1106。
但是在英語單項列表中,Llama 3的結果與兩款GPT-4直接平局,也超過了0125版本。
Claude是中文能力排行榜的第一名。 3 Opus和GPT-4-1106共享,Llama 三是已排到20位以外。
除語言能力外,列表中還設置了長文本和代碼能力排名,Llama 三也都名列前茅。
但是,LMSYS的“游戲規(guī)則”到底是什么呢?
每個人都可以參與的大模型評估
這個大模型測試,大家都可以參加,題目和評價標準,都是由參與者自己決定的。
而且具體的“競技”過程,又分為battle和side-by-兩種模式的side。
在battle模式中,在測試界面輸入好問題后,系統(tǒng)會隨機調用庫中的兩個模型,但測試人員不知道系統(tǒng)是誰贏的。界面只顯示“模型A”和“模型B”。
當模型導出答案后,評估者需要選擇哪一個更好,或平局,當然,如果模型表現(xiàn)不符合預期,也有相應的選擇。
模型身份只有在做出決定后才能被揭開。
side-by-side由用戶選擇指定的模型進行PK,其它測試步驟與battle相同。
但是,只有battle匿名模式下的投票結果才能被統(tǒng)計,模型在對話過程中不小心暴露了自己的身份,結果才會失敗。
根據(jù)每個模型對其它模型進行Win。 Rate,能畫出這樣的圖像:

△
而且最后的排名,就是利用Win Rate數(shù)據(jù),通過Elo評估系統(tǒng)轉換成績獲得。
Elo評估系統(tǒng)是由美國物理學教授Arpadad計算玩家相對技能水平的一種方法。 Elo設計。
具體到LMSYS,在初始條件下,所有模型評分(R)全部設定為1000,然后根據(jù)這個公式換算出期望的勝率。(E)。
隨著測試的持續(xù)進行,將按實際評分進行。(S)修改分數(shù),S有1、0和0.5三種取值,分別對應三種情況:勝利、失敗和平手。
下面的公式顯示了調整算法,其中K是指數(shù),需要測試人員根據(jù)實際情況進行調整。
最終將所有有效數(shù)據(jù)納入計算之后,獲得模型Elo評分。
然而,在實際操作過程中,LMSYS團隊發(fā)現(xiàn)該算法的穩(wěn)定性不足,因此又采用了統(tǒng)計方法進行調整。
它們通過Bootstrap反復取樣,得到了更穩(wěn)定的結果,并對置信度區(qū)間進行了估計。
Elo評分經過最終修正,成為排名的依據(jù)。
One More Thing
Llama 已能在模型推理平臺Groq(不是馬斯克的Grok)上運行。
這一平臺最大的亮點就是“快”,之前用Mixtral模型跑出了每秒近500。 速度token。
跑Llama 三、也相當快,實測70B可以跑到每秒300左右。 Token,8B版本更接近800。
參考鏈接:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144
本文來自微信微信官方賬號“量子位”(ID:QbitAI),作者:克雷西,36氪經授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





