欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<rt id="vg9q9"><delect id="vg9q9"></delect></rt>

<ruby id="vg9q9"></ruby><li id="vg9q9"><strong id="vg9q9"></strong></li>

大型一對一作戰(zhàn)75萬輪，GPT-4奪冠，Llama 3位居第五

2024-04-28

有關Llama 三是有新發(fā)布的檢測結果?！?/p>

LMSYS大模型評估社區(qū)發(fā)布了一份大模型排行榜，Llama 第三名是第五名，英語單項和GPT-4并列第一。

與其它Benchmark不同的是，這個列表的基礎是模型一對一的battle，由全網評估者自己出題并進行評分。

最后，Llama 3在排行榜上獲得第五名，排名第一的是GPT-4的三個不同版本，以及Claude 超級大杯Opus。

但是在英語單項列表中，Llama 3超越Claude，與GPT-4打成平局。

Meta的首席科學家LeCun非常高興地轉發(fā)了這篇文章，并留下了一篇“Nice”。

SoumithPyTorch鼻祖 Chintala也興奮地表示，這一成就令人驚嘆，并為Meta感到自豪。

Llama 3的400B版本還沒有出來，僅僅依靠70B參數(shù)就獲得了第五名...我還記得去年3月GPT-4發(fā)布的時候，幾乎不可能達到和它一樣的表現(xiàn)。..........現(xiàn)在AI的普及真的很不可思議，我對Meta AI的同事們?yōu)檫@樣的成功感到非常自豪。

所以，這個列表的具體結果是什么呢？

近90個模型對戰(zhàn)75萬輪。

在最新名單發(fā)布之前，LMSYS已經收集了近75萬個大模型solo對戰(zhàn)結果，其中涉及的模型達到了89個。

其中，Llama 3有1.27萬次參加，GPT-四是有多個不同的版本，最多參與68,000次。

下圖顯示了一些熱門模型的比賽頻率和勝率，圖中的兩個指標也沒有統(tǒng)計平手次數(shù)。

在列表方面，LMSYS分為列表和多個子列表，GPT-4-Turbo排名第一，與之并列的是早期1106版本，以及Claude。超級大杯Opus。

另外一個版本(0125)的GPT-4位居后，接下來是Llamama。 3了。

不過更有意思的是，比較新的0125，表現(xiàn)還不如老版本1106。

但是在英語單項列表中，Llama 3的結果與兩款GPT-4直接平局，也超過了0125版本。

Claude是中文能力排行榜的第一名。 3 Opus和GPT-4-1106共享，Llama 三是已排到20位以外。

除語言能力外，列表中還設置了長文本和代碼能力排名，Llama 三也都名列前茅。

但是，LMSYS的“游戲規(guī)則”到底是什么呢？

每個人都可以參與的大模型評估

這個大模型測試，大家都可以參加，題目和評價標準，都是由參與者自己決定的。

而且具體的“競技”過程，又分為battle和side-by-兩種模式的side。

在battle模式中，在測試界面輸入好問題后，系統(tǒng)會隨機調用庫中的兩個模型，但測試人員不知道系統(tǒng)是誰贏的。界面只顯示“模型A”和“模型B”。

當模型導出答案后，評估者需要選擇哪一個更好，或平局，當然，如果模型表現(xiàn)不符合預期，也有相應的選擇。

模型身份只有在做出決定后才能被揭開。

side-by-side由用戶選擇指定的模型進行PK，其它測試步驟與battle相同。

但是，只有battle匿名模式下的投票結果才能被統(tǒng)計，模型在對話過程中不小心暴露了自己的身份，結果才會失敗。

根據(jù)每個模型對其它模型進行Win。 Rate，能畫出這樣的圖像：

△

而且最后的排名，就是利用Win Rate數(shù)據(jù)，通過Elo評估系統(tǒng)轉換成績獲得。

Elo評估系統(tǒng)是由美國物理學教授Arpadad計算玩家相對技能水平的一種方法。 Elo設計。

具體到LMSYS，在初始條件下，所有模型評分（R）全部設定為1000，然后根據(jù)這個公式換算出期望的勝率。（E）。

隨著測試的持續(xù)進行，將按實際評分進行。（S）修改分數(shù)，S有1、0和0.5三種取值，分別對應三種情況：勝利、失敗和平手。

下面的公式顯示了調整算法，其中K是指數(shù)，需要測試人員根據(jù)實際情況進行調整。

最終將所有有效數(shù)據(jù)納入計算之后，獲得模型Elo評分。

然而，在實際操作過程中，LMSYS團隊發(fā)現(xiàn)該算法的穩(wěn)定性不足，因此又采用了統(tǒng)計方法進行調整。

它們通過Bootstrap反復取樣，得到了更穩(wěn)定的結果，并對置信度區(qū)間進行了估計。

Elo評分經過最終修正，成為排名的依據(jù)。

One More Thing

Llama 已能在模型推理平臺Groq(不是馬斯克的Grok)上運行。

這一平臺最大的亮點就是“快”，之前用Mixtral模型跑出了每秒近500。速度token。

跑Llama 三、也相當快，實測70B可以跑到每秒300左右。 Token，8B版本更接近800。

參考鏈接：

[1]https://lmsys.org/blog/2023-05-03-arena/

[2]https://chat.lmsys.org/?leaderboard

[3]https://twitter.com/lmsysorg/status/1782483699449332144

本文來自微信微信官方賬號“量子位”（ID:QbitAI），作者：克雷西，36氪經授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

儲存在漲價中，兆易創(chuàng)新卻很尷尬 | 一解財報

眼藥大牛股表現(xiàn)下隱藏的隱患 | 一解財報

從雞肋到剛需，智能手表盯上“脆皮年輕人”

商務部：實施數(shù)字消費提升行動打造“4+N”網絡消費矩陣

品牌變革新時代? 健康+迎來投資新機遇

項目推薦