MiniMax M2.5:龍蝦Agent的優(yōu)選模型,實現(xiàn)永不停機運行
本文來自微信公眾號: AGENT橘 ,作者:AGENT橘
2026年春節(jié)前夕的這一周,堪稱中國AI領(lǐng)域全年成果的集中展示期。
各類成果接連發(fā)布,讓人應(yīng)接不暇。
日前,MiniMax推出了M2.5模型,其激活參數(shù)與M2.1相同,僅為10B。
M2.1曾是小龍蝦工具作者Peter最推崇的開源模型。
M2.5相較于M2.1實現(xiàn)了快速迭代,在編程領(lǐng)域具有代表性的SWE-Bench Verified評測中,M2系列的進步速度在所有模型系列里位居首位,超越了Claude、GPT和Gemini。

Peter將Opus作為主力模型,而MiniMax則作為備用選擇,當(dāng)Opus的token耗盡時,系統(tǒng)會自動切換到MiniMax繼續(xù)運行。
并且他不只是通過云端調(diào)用模型。他還在自己的兩臺Mac Studio上運行MiniMax進行本地推理,無需依賴模型廠商的套餐服務(wù),完全實現(xiàn)本地化部署,確保龍蝦Agent始終保持在線狀態(tài)。
能夠在本地順利運行,得益于M2.5在眾多旗艦?zāi)P椭袚碛凶钚〉募せ顓?shù)。
M2.5的激活參數(shù)僅為10B。相比之下,GLM-5激活參數(shù)為40B,Kimi K2.5約為50B,DeepSeek V3.2約為30B。
盡管該模型的激活參數(shù)較小,但其Agent能力卻不容小覷。經(jīng)過Peter及眾多小龍蝦用戶的實際測試,MiniMax是小龍蝦工具中表現(xiàn)最佳的開源模型。
參數(shù)小帶來的優(yōu)勢是連鎖性的:推理速度達到100 TPS,幾乎是主流旗艦?zāi)P偷膬杀?。以這樣的速度連續(xù)工作一小時,成本僅需1美金;若將速度降至50 TPS,成本則只需0.3美金。
這意味著讓一個復(fù)雜的Agent持續(xù)運行下去,在經(jīng)濟層面變得完全可行。

Agent與工具調(diào)用能力
M2.5的工具調(diào)用能力十分出色,在多項工具調(diào)用指標(biāo)中均處于領(lǐng)先水平。搜索是Agent最常用的工具之一,為此MiniMax專門構(gòu)建了評測集RISE(Realistic Interactive Search Evaluation),用于測試模型在真實專業(yè)任務(wù)中的搜索能力。
與M2.1相比,M2.5的提升也很顯著。在BrowseComp、Wide Search、RISE等多項任務(wù)中,M2.5用更少的搜索輪次就取得了更優(yōu)的結(jié)果,輪次消耗減少了約20%,模型學(xué)會了用更短的路徑獲取答案。

海外開發(fā)者Tom Osman借助Clawdbot×MiniMax重構(gòu)了日常工作流程。他在Telegram、Slack、WhatsApp、iMessage等平臺都部署了龍蝦Agent,可通過語音或文字隨時下達指令。在一個典型的工作日里,他會讓龍蝦Agent分析網(wǎng)站、調(diào)研信息、撰寫博客、更新元數(shù)據(jù)、起草社交帖子、發(fā)送郵件等,所有任務(wù)并行處理,他只需在不同的Agent之間切換對話即可。
他對MiniMax的評價是:在工具調(diào)用方面表現(xiàn)出色且準(zhǔn)確性高。他使用的是每月10美金的Coding Plan,用量遠未達到上限。
10B的模型尺寸天生適合這類場景。Agent需要全天候不間斷運行,模型越小,持續(xù)運行的成本就越低,可行性也就越高。龍蝦工具作者Peter選擇MiniMax作為Opus的備用模型,本質(zhì)上就是看中了這一點:
當(dāng)你需要一個Agent持續(xù)運行時,10B的模型能讓你真正負擔(dān)得起運行成本。
在我的實際測試中,我讓Minimax M2.5執(zhí)行了一項測試任務(wù):監(jiān)控每天熱度最高的小龍蝦工具技能,它完成得非常出色。
編程與泛用性表現(xiàn)
在編程方面,M2.5相較于M2.1有了巨大進步,在SWE-bench Verified評測中達到80.2%,在Multi-SWE-Bench評測中以51.3%的成績位居全行業(yè)第一。
在提升能力的同時,M2.5的推理速度也得到了提升。端到端完成SWE-bench任務(wù)的時間從M2.1的31.3分鐘縮短至22.8分鐘,速度提升了37%,與Opus 4.6的22.9分鐘幾乎持平。每個任務(wù)的token消耗也從3.72M降至3.52M,實現(xiàn)了提速又降耗。

還有一個有趣的點是M2.5在不同編程客戶端中的泛用性很強。在Droid上運行SWE-Bench任務(wù)時,M2.5的得分是79.7(Opus 4.6為78.9);在OpenCode上的得分是76.1(Opus 4.6為75.9),這使得它不再過度依賴Claude Code這類閉源工具。
提升對OpenCode的支持確實是一件好事。OpenCode是Claude Code的開源替代工具,安裝簡單,易于上手。
而且在OpenCode中,MiniMax M2.5是限時免費的,無需額外配置。
我曾讓它編寫一個2026年春運實時監(jiān)控程序,該程序能每小時自動監(jiān)控并更新網(wǎng)頁內(nèi)容,最終效果良好。
從工具到同事:Agent的發(fā)展方向
MiniMax為M2.5的定位是“真實世界的好同事”。
這是因為Agent是未來軟件的使用者,會成為每個團隊中新增的成員。
一旦這種轉(zhuǎn)變發(fā)生,對模型的要求就會徹底改變。
在自主Agent時代,Agent需要全天候不間斷運行,每天進行數(shù)百次推理調(diào)用。此時,人們關(guān)注的是:模型能力是否夠用、運行速度是否夠快、成本是否能承受。
那么,雇傭一個Agent一年大概需要多少成本呢?
M2.5有兩個版本:快速版本在每秒輸出100個token的情況下,連續(xù)工作一小時僅需1美金;慢速版本在每秒輸出50個token的情況下,連續(xù)工作一小時僅需0.3美金。
據(jù)此計算,雇傭Agent讓其全天候工作,每個Agent的月薪僅為200美金。只需花費一萬美金,就能擁有四個永不休息的“同事”。
未來幾年,算力供給呈線性增長,而需求卻呈指數(shù)增長,Token資源會越來越稀缺。
在這樣的大背景下,自主Agent時代能否實現(xiàn)全天候持續(xù)運轉(zhuǎn)至關(guān)重要。
因為只有這樣,Agent才能走進真實世界,成為人們真正的工作伙伴。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



