MiniMax M2.5正式發(fā)布 性能提升帶動股價上漲35%
本文原始材料由Minimax官方發(fā)布的博客及編輯整理的技術(shù)發(fā)展路徑組成,由Minimax 2.5撰寫,編輯僅對其中一處顯著錯誤進(jìn)行了刪除處理,并添加了當(dāng)日股價變化情況。可視作對Minimax寫作能力的一個測試。
一、模型定位與核心能力
2026年2月,MiniMax正式發(fā)布新一代旗艦?zāi)P蚆2.5。根據(jù)MiniMax官方發(fā)布的信息,M2.5是一款經(jīng)過海量真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練的大模型,在編程、智能體工具使用、搜索以及辦公生產(chǎn)力等高價值經(jīng)濟(jì)任務(wù)領(lǐng)域達(dá)到了行業(yè)領(lǐng)先水平。該模型在SWE-Bench Verified測試中獲得80.2%的得分,在Multi-SWE-Bench中獲得51.3%的得分,在BrowseComp(包含上下文管理)中獲得76.3%的得分。

值得注意的是,根據(jù)官方數(shù)據(jù),M2.5在復(fù)雜智能體任務(wù)的執(zhí)行效率上實(shí)現(xiàn)了顯著提升。M2.5完成SWE-Bench Verified評估的速度比M2.1快37%,與Claude Opus 4.6的執(zhí)行速度基本持平。這一性能提升主要得益于模型在任務(wù)分解和推理效率方面的優(yōu)化。
MiniMax在官方發(fā)布中明確表示,M2.5是其M系列模型的最新迭代,延續(xù)了M2.1的核心技術(shù)框架。
根據(jù)MiniMax發(fā)布的技術(shù)演進(jìn)文檔,從M1到M2.5的技術(shù)發(fā)展脈絡(luò)清晰:M1專注于推理深度的突破,M2聚焦于高效編碼和智能體工作流,而M2.5則在此基礎(chǔ)上進(jìn)一步強(qiáng)化了多場景應(yīng)用能力。M2.5并非全新的技術(shù)范式,而是在M2.1基礎(chǔ)上的工程優(yōu)化和能力增強(qiáng)。
二、技術(shù)框架分析:延續(xù)與工程優(yōu)化
2.1 整體架構(gòu)設(shè)計(jì)
根據(jù)MiniMax官方發(fā)布的技術(shù)信息,M2.5采用了與M2相同的混合專家模型(MoE)架構(gòu),總參數(shù)規(guī)模達(dá)到2300億,但在推理時僅激活100億參數(shù)。這種“極端稀疏性”的設(shè)計(jì)哲學(xué)是M系列的核心特征,旨在實(shí)現(xiàn)“小激活、大智慧”的計(jì)算效率。
從技術(shù)演進(jìn)的視角來看,M2.5的框架基本完全延續(xù)M2.1。根據(jù)MiniMax發(fā)布的技術(shù)演進(jìn)文檔,M2.1主要強(qiáng)化了多語言編程能力,專注于解決復(fù)雜軟件工程中的跨語言邏輯對齊問題;而M2.5則在此基礎(chǔ)上進(jìn)一步優(yōu)化了在編程、工具調(diào)用、搜索增強(qiáng)(RAG)以及辦公生產(chǎn)力場景中的表現(xiàn)。這說明M2.5的架構(gòu)層面并未發(fā)生根本性變革,而是在已有框架下的工程更新和能力擴(kuò)展。
2.2 Forge智能體原生強(qiáng)化學(xué)習(xí)框架
M2.5延續(xù)了名為Forge的智能體原生強(qiáng)化學(xué)習(xí)框架,此框架從M2.1開始推出。根據(jù)官方發(fā)布的技術(shù)說明,F(xiàn)orge的核心設(shè)計(jì)理念是引入一個中間層,將底層訓(xùn)練-推理引擎與智能體完全解耦,從而支持任意智能體的集成,并能夠優(yōu)化模型在不同智能體腳手架和工具間的泛化能力。

在系統(tǒng)吞吐量優(yōu)化方面,F(xiàn)orge采用了異步調(diào)度策略來平衡系統(tǒng)吞吐量與樣本偏離度(sample off-policyness)之間的矛盾。此外,F(xiàn)orge還設(shè)計(jì)了樹狀結(jié)構(gòu)合并策略用于訓(xùn)練樣本處理,據(jù)官方稱該策略實(shí)現(xiàn)了約40倍的訓(xùn)練加速。這一工程優(yōu)化顯著提升了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的效率。
2.3 強(qiáng)化學(xué)習(xí)算法與獎勵設(shè)計(jì)
在算法層面,M2.5繼續(xù)采用MiniMax于2024年初提出的CISPO算法。根據(jù)官方說明,該算法的主要作用是確保MoE模型在大規(guī)模訓(xùn)練過程中的穩(wěn)定性。
針對智能體 rollout中長上下文帶來的信用分配(credit assignment)挑戰(zhàn),M2.5引入了過程獎勵機(jī)制,用于端到端監(jiān)控生成質(zhì)量。此外,為了深度對齊用戶體驗(yàn),模型還通過智能體軌跡評估任務(wù)完成時間,從而在模型智能與響應(yīng)速度之間實(shí)現(xiàn)最優(yōu)權(quán)衡。這種獎勵設(shè)計(jì)反映了MiniMax對實(shí)際應(yīng)用場景的重視。
2.4 訓(xùn)練數(shù)據(jù)與評估體系
M2.5的訓(xùn)練覆蓋了超過10種編程語言,包括Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart和Ruby,訓(xùn)練環(huán)境超過20萬個真實(shí)場景。這一廣泛的語言和場景覆蓋確保了模型在多元化開發(fā)環(huán)境中的泛化能力。
在辦公場景方面,M2.5的訓(xùn)練深度整合了金融、法律和社會科學(xué)等領(lǐng)域資深專業(yè)人士的領(lǐng)域知識。這些專家不僅設(shè)計(jì)需求、提供反饋、參與標(biāo)準(zhǔn)定義,還直接參與數(shù)據(jù)構(gòu)建,將各自行業(yè)的隱性知識融入模型訓(xùn)練流程。這種專業(yè)化的數(shù)據(jù)構(gòu)建策略是M2.5在專業(yè)辦公場景中取得突破的關(guān)鍵因素。
評估體系方面,MiniMax構(gòu)建了內(nèi)部Cowork Agent評估框架(GDPval-MM),該框架通過成對比較評估交付物的質(zhì)量和智能體軌跡的專業(yè)性,同時監(jiān)控整個工作流程的token消耗,以估算模型在實(shí)際生產(chǎn)中的效率提升。
三、性能表現(xiàn)與基準(zhǔn)測試
3.1 編程能力
根據(jù)MiniMax官方發(fā)布的數(shù)據(jù),M2.5在多項(xiàng)編程評估中達(dá)到了行業(yè)領(lǐng)先水平。在SWE-Bench Verified測試中,M2.5得分80.2%;在Multi-SWE-Bench測試中,得分51.3%。

M2.5在跨分布 harness 的泛化能力方面也表現(xiàn)出色。在使用不同編程智能體 harness 對 SWE-Bench Verified 評估集進(jìn)行測試時,M2.5在Droid harness上得分79.7%(優(yōu)于Opus 4.6的78.9%),在OpenCode harness上得分76.1%(優(yōu)于Opus 4.6的75.9%)。
一個顯著改進(jìn)是M2.5具備了架構(gòu)師思維的能力。根據(jù)官方說明,這一特性是在訓(xùn)練過程中自然涌現(xiàn)的:M2.5在編寫任何代碼之前,會從經(jīng)驗(yàn)豐富的軟件架構(gòu)師視角主動分解和規(guī)劃項(xiàng)目的功能、結(jié)構(gòu) 和UI設(shè)計(jì)。這種“規(guī)范先行”的編程習(xí)慣對于復(fù)雜系統(tǒng)工程開發(fā)具有重要價值。
3.2 搜索與工具調(diào)用
在BrowseComp和Wide Search等基準(zhǔn)測試中,M2.5實(shí)現(xiàn)了行業(yè)領(lǐng)先的性能表現(xiàn)。同時,模型的泛化能力也有所提升——在面對不熟悉的腳手架環(huán)境時,M2.5表現(xiàn)出更穩(wěn)定的性能。

為了更準(zhǔn)確地評估真實(shí)專業(yè)任務(wù)中的搜索能力,MiniMax構(gòu)建了RISE(Realistic Interactive Search Evaluation)基準(zhǔn)。官方表示,測試結(jié)果表明M2.5在真實(shí)世界專業(yè)任務(wù)中表現(xiàn)優(yōu)異,擅長專家級搜索任務(wù)。
在智能體任務(wù)決策方面,M2.5展現(xiàn)出更優(yōu)的問題解決能力:它學(xué)會了用更精準(zhǔn)的搜索輪次和更高的token效率來解決問題。例如,在BrowseComp、Wide Search和RISE等多個智能體任務(wù)中,M2.5以更少的輪次實(shí)現(xiàn)了更好的結(jié)果,相比M2.1節(jié)省了約20%的搜索輪次。這表明模型不僅能夠獲得正確答案,還能通過更高效的推理路徑達(dá)成目標(biāo)。
3.3 辦公生產(chǎn)力
在辦公場景方面,M2.5經(jīng)過訓(xùn)練能夠產(chǎn)生真正可交付的輸出成果。在Word、PowerPoint和Excel金融建模等高價值工作場景中,M2.5實(shí)現(xiàn)了顯著的能力提升。在與主流模型的對標(biāo)測試中,M2.5的平均勝率達(dá)到59.0%。
四、成本、效率和市場
M2.5原生支持的推理速度達(dá)到100 tokens/秒,接近其他前沿模型的兩倍。此外,強(qiáng)化學(xué)習(xí)訓(xùn)練策略激勵模型高效推理和最優(yōu)任務(wù)分解。得益于這三個因素的協(xié)同作用,M2.5在復(fù)雜任務(wù)完成方面實(shí)現(xiàn)了顯著的時間節(jié)省。
具體而言,在運(yùn)行SWE-Bench Verified時,M2.5平均每個任務(wù)消耗352萬tokens,而M2.1消耗372萬tokens。得益于并行工具調(diào)用等能力改進(jìn),端到端運(yùn)行時間從平均31.3分鐘減少到22.8分鐘,提升37%。這一速度與Claude Opus 4.6的22.9分鐘基本持平,而單個任務(wù)的總成本僅為Claude Opus 4.6的10%。
4.2 定價策略與市場反響
根據(jù)MiniMax官方發(fā)布的信息,M2.5系列包含兩個版本:M2.5和M2.5-Lightning,兩者在能力上完全相同,僅在速度上存在差異。
M2.5-Lightning的穩(wěn)定吞吐量達(dá)到100 tokens/秒,是其他前沿模型的兩倍速度,價格為每百萬輸入tokens 0.3美元,每百萬輸出tokens 2.4美元。M2.5的吞吐量為50 tokens/秒,價格減半。兩個版本都支持緩存功能。
根據(jù)輸出價格計(jì)算,M2.5的成本是Opus、Gemini 3 Pro和GPT-5的十分之一到二十分之一。以100 tokens/秒的速率連續(xù)運(yùn)行一小時M2.5的成本僅為1美元;以50 TPS的速率運(yùn)行,成本降至0.3美元。換言之,用戶可以以每年10,000美元的價格讓四個M2.5實(shí)例全年不間斷運(yùn)行。
MiniMax在官方發(fā)布中表示,設(shè)計(jì)M2系列基礎(chǔ)模型的目標(biāo)是打造能夠驅(qū)動復(fù)雜智能體而無需擔(dān)憂成本的模型。M2.5被定位為首款讓用戶無需擔(dān)憂成本的前沿模型。
2026年2月12日,智譜也發(fā)布了新一代旗艦?zāi)P虶LM-5。根據(jù)公開信息,GLM-5的參數(shù)規(guī)模達(dá)到744B,在編程任務(wù)上實(shí)現(xiàn)了對Claude Opus 4.5的對齊,擅長復(fù)雜系統(tǒng)工程與長程智能體任務(wù)。
在定價方面,智譜同期宣布對GLM Coding Plan套餐價格進(jìn)行結(jié)構(gòu)性調(diào)整,整體漲幅自30%起。值得注意的是,這是國產(chǎn)大模型近期以來的首次大幅提價。GLM-5海外版的價格漲幅更高: Coding plan訂閱價格提高30%-60%,API調(diào)用價格提升67%-100%。
本次,智譜學(xué)習(xí)硅谷前沿模型,先期在OpenRouter上線名為Pony Alpha的測試版本,整體期待和熱度延續(xù)較長。截止發(fā)稿,近五日來,智譜股價已上漲114.88%。

與之相比,本次Minimax M2.5發(fā)布相對較為低調(diào)。但股價在過去五天之間亦有34.69%的漲幅。

六、應(yīng)用生態(tài)與落地情況
M2.5已全面部署在MiniMax Agent中,提供最佳的智能體體驗(yàn)。MiniMax將核心信息處理能力提煉為標(biāo)準(zhǔn)化的Office Skills,深度集成在MiniMax Agent中。在MAX模式下,當(dāng)處理Word格式化、PowerPoint編輯和Excel計(jì)算等任務(wù)時,MiniMax Agent會自動根據(jù)文件類型加載對應(yīng)的Office Skills,從而提升任務(wù)輸出的質(zhì)量。
用戶還可以將Office Skills與領(lǐng)域特定的行業(yè)專業(yè)知識結(jié)合,創(chuàng)建針對特定任務(wù)場景的可復(fù)用Expert。截至目前,用戶已在MiniMax Agent上構(gòu)建了超過10,000個Expert,這一數(shù)字仍在快速增長。MiniMax自身也構(gòu)建了多套針對高頻場景(如辦公、金融、編程)深度優(yōu)化的即用型Expert套件。
在MiniMax公司內(nèi)部的日常運(yùn)營中,M2.5自主完成了30%的整體任務(wù),涵蓋研發(fā)、產(chǎn)品、銷售、人力資源和財務(wù)等部門,滲透率持續(xù)上升。在編程場景中,M2.5生成的代碼占新增提交代碼的80%。這些內(nèi)部應(yīng)用數(shù)據(jù)為M2.5的能力提供了實(shí)際落地驗(yàn)證。
七、總結(jié)
綜合來看,MiniMax M2.5作為M2系列的最新迭代,在技術(shù)框架上基本延續(xù)了M2.1的核心架構(gòu),主要通過工程優(yōu)化實(shí)現(xiàn)了能力增強(qiáng)。M2.5的核心價值主張?jiān)谟冢阂赃h(yuǎn)低于同類產(chǎn)品的價格,提供接近頂級模型的性能表現(xiàn),特別是在編程、智能體任務(wù)和辦公生產(chǎn)力等高價值場景中。
從技術(shù)演進(jìn)的角度來看,M2.5的成功發(fā)布驗(yàn)證了MiniMax在MoE架構(gòu)和強(qiáng)化學(xué)習(xí)Scaling方面的技術(shù)路徑。從商業(yè)角度來看,M2.5的定價策略可能會對國內(nèi)大模型市場的定價邏輯產(chǎn)生深遠(yuǎn)影響,為智能體應(yīng)用的大規(guī)模落地提供了更具經(jīng)濟(jì)可行性的選擇。
本文來自“騰訊科技”,作者:Minimax 2.5,編輯:庫丘林,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




