欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<td id="nk3l8"></td>

<i id="nk3l8"></i>

<li id="nk3l8"></li>

MiniMax M2.5：龍蝦Agent的優(yōu)選模型，實現(xiàn)永不停機運行

02-15 06:21

本文來自微信公眾號： AGENT橘，作者：AGENT橘

2026年春節(jié)前夕的這一周，堪稱中國AI領(lǐng)域全年成果的集中展示期。

各類成果接連發(fā)布，讓人應(yīng)接不暇。

日前，MiniMax推出了M2.5模型，其激活參數(shù)與M2.1相同，僅為10B。

M2.1曾是小龍蝦工具作者Peter最推崇的開源模型。

M2.5相較于M2.1實現(xiàn)了快速迭代，在編程領(lǐng)域具有代表性的SWE-Bench Verified評測中，M2系列的進步速度在所有模型系列里位居首位，超越了Claude、GPT和Gemini。

Peter將Opus作為主力模型，而MiniMax則作為備用選擇，當(dāng)Opus的token耗盡時，系統(tǒng)會自動切換到MiniMax繼續(xù)運行。

并且他不只是通過云端調(diào)用模型。他還在自己的兩臺Mac Studio上運行MiniMax進行本地推理，無需依賴模型廠商的套餐服務(wù)，完全實現(xiàn)本地化部署，確保龍蝦Agent始終保持在線狀態(tài)。

能夠在本地順利運行，得益于M2.5在眾多旗艦?zāi)Ｐ椭袚碛凶钚〉募せ顓?shù)。

M2.5的激活參數(shù)僅為10B。相比之下，GLM-5激活參數(shù)為40B，Kimi K2.5約為50B，DeepSeek V3.2約為30B。

盡管該模型的激活參數(shù)較小，但其Agent能力卻不容小覷。經(jīng)過Peter及眾多小龍蝦用戶的實際測試，MiniMax是小龍蝦工具中表現(xiàn)最佳的開源模型。

參數(shù)小帶來的優(yōu)勢是連鎖性的：推理速度達到100 TPS，幾乎是主流旗艦?zāi)Ｐ偷膬杀?。以這樣的速度連續(xù)工作一小時，成本僅需1美金；若將速度降至50 TPS，成本則只需0.3美金。

這意味著讓一個復(fù)雜的Agent持續(xù)運行下去，在經(jīng)濟層面變得完全可行。

Agent與工具調(diào)用能力

M2.5的工具調(diào)用能力十分出色，在多項工具調(diào)用指標(biāo)中均處于領(lǐng)先水平。搜索是Agent最常用的工具之一，為此MiniMax專門構(gòu)建了評測集RISE（Realistic Interactive Search Evaluation），用于測試模型在真實專業(yè)任務(wù)中的搜索能力。

與M2.1相比，M2.5的提升也很顯著。在BrowseComp、Wide Search、RISE等多項任務(wù)中，M2.5用更少的搜索輪次就取得了更優(yōu)的結(jié)果，輪次消耗減少了約20%，模型學(xué)會了用更短的路徑獲取答案。

海外開發(fā)者Tom Osman借助Clawdbot×MiniMax重構(gòu)了日常工作流程。他在Telegram、Slack、WhatsApp、iMessage等平臺都部署了龍蝦Agent，可通過語音或文字隨時下達指令。在一個典型的工作日里，他會讓龍蝦Agent分析網(wǎng)站、調(diào)研信息、撰寫博客、更新元數(shù)據(jù)、起草社交帖子、發(fā)送郵件等，所有任務(wù)并行處理，他只需在不同的Agent之間切換對話即可。

他對MiniMax的評價是：在工具調(diào)用方面表現(xiàn)出色且準(zhǔn)確性高。他使用的是每月10美金的Coding Plan，用量遠未達到上限。

10B的模型尺寸天生適合這類場景。Agent需要全天候不間斷運行，模型越小，持續(xù)運行的成本就越低，可行性也就越高。龍蝦工具作者Peter選擇MiniMax作為Opus的備用模型，本質(zhì)上就是看中了這一點：

當(dāng)你需要一個Agent持續(xù)運行時，10B的模型能讓你真正負擔(dān)得起運行成本。

在我的實際測試中，我讓Minimax M2.5執(zhí)行了一項測試任務(wù)：監(jiān)控每天熱度最高的小龍蝦工具技能，它完成得非常出色。

編程與泛用性表現(xiàn)

在編程方面，M2.5相較于M2.1有了巨大進步，在SWE-bench Verified評測中達到80.2%，在Multi-SWE-Bench評測中以51.3%的成績位居全行業(yè)第一。

在提升能力的同時，M2.5的推理速度也得到了提升。端到端完成SWE-bench任務(wù)的時間從M2.1的31.3分鐘縮短至22.8分鐘，速度提升了37%，與Opus 4.6的22.9分鐘幾乎持平。每個任務(wù)的token消耗也從3.72M降至3.52M，實現(xiàn)了提速又降耗。

還有一個有趣的點是M2.5在不同編程客戶端中的泛用性很強。在Droid上運行SWE-Bench任務(wù)時，M2.5的得分是79.7（Opus 4.6為78.9）；在OpenCode上的得分是76.1（Opus 4.6為75.9），這使得它不再過度依賴Claude Code這類閉源工具。

提升對OpenCode的支持確實是一件好事。OpenCode是Claude Code的開源替代工具，安裝簡單，易于上手。

而且在OpenCode中，MiniMax M2.5是限時免費的，無需額外配置。

我曾讓它編寫一個2026年春運實時監(jiān)控程序，該程序能每小時自動監(jiān)控并更新網(wǎng)頁內(nèi)容，最終效果良好。

從工具到同事：Agent的發(fā)展方向

MiniMax為M2.5的定位是“真實世界的好同事”。

這是因為Agent是未來軟件的使用者，會成為每個團隊中新增的成員。

一旦這種轉(zhuǎn)變發(fā)生，對模型的要求就會徹底改變。

在自主Agent時代，Agent需要全天候不間斷運行，每天進行數(shù)百次推理調(diào)用。此時，人們關(guān)注的是：模型能力是否夠用、運行速度是否夠快、成本是否能承受。

那么，雇傭一個Agent一年大概需要多少成本呢？

M2.5有兩個版本：快速版本在每秒輸出100個token的情況下，連續(xù)工作一小時僅需1美金；慢速版本在每秒輸出50個token的情況下，連續(xù)工作一小時僅需0.3美金。

據(jù)此計算，雇傭Agent讓其全天候工作，每個Agent的月薪僅為200美金。只需花費一萬美金，就能擁有四個永不休息的“同事”。

未來幾年，算力供給呈線性增長，而需求卻呈指數(shù)增長，Token資源會越來越稀缺。

在這樣的大背景下，自主Agent時代能否實現(xiàn)全天候持續(xù)運轉(zhuǎn)至關(guān)重要。

因為只有這樣，Agent才能走進真實世界，成為人們真正的工作伙伴。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

信譽樓百貨濱州、定州新店簽約 2026年秋將開業(yè)

第28屆上海國際電影節(jié)6月12日啟幕柏林推廣活動盛邀全球影人共赴光影之約

從小說到博物館再到紀(jì)錄片，帕慕克《純真博物館》劇集版登陸Netflix

300585控制權(quán)轉(zhuǎn)讓突發(fā)終止，受讓方未付首期款致協(xié)議解除

高薪仍缺人！節(jié)前這類服務(wù)訂單激增

項目推薦

康老板 · 氧療堂

<kbd id="cswe3"><progress id="cswe3"><dfn id="cswe3"></dfn></progress></kbd><rt id="cswe3"></rt>

<style id="cswe3"><progress id="cswe3"></progress></style>