欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

MiniMax M2.5正式發(fā)布性能提升帶動股價上漲35%

02-14 06:21

MiniMax M2.5作為M2系列的最新迭代產(chǎn)品，在技術(shù)框架上基本延續(xù)了M2.1的核心架構(gòu)，主要通過工程優(yōu)化實(shí)現(xiàn)了能力的增強(qiáng)。

本文原始材料由Minimax官方發(fā)布的博客及編輯整理的技術(shù)發(fā)展路徑組成，由Minimax 2.5撰寫，編輯僅對其中一處顯著錯誤進(jìn)行了刪除處理，并添加了當(dāng)日股價變化情況。可視作對Minimax寫作能力的一個測試。

一、模型定位與核心能力

2026年2月，MiniMax正式發(fā)布新一代旗艦?zāi)Ｐ蚆2.5。根據(jù)MiniMax官方發(fā)布的信息，M2.5是一款經(jīng)過海量真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練的大模型，在編程、智能體工具使用、搜索以及辦公生產(chǎn)力等高價值經(jīng)濟(jì)任務(wù)領(lǐng)域達(dá)到了行業(yè)領(lǐng)先水平。該模型在SWE-Bench Verified測試中獲得80.2%的得分，在Multi-SWE-Bench中獲得51.3%的得分，在BrowseComp（包含上下文管理）中獲得76.3%的得分。

值得注意的是，根據(jù)官方數(shù)據(jù)，M2.5在復(fù)雜智能體任務(wù)的執(zhí)行效率上實(shí)現(xiàn)了顯著提升。M2.5完成SWE-Bench Verified評估的速度比M2.1快37%，與Claude Opus 4.6的執(zhí)行速度基本持平。這一性能提升主要得益于模型在任務(wù)分解和推理效率方面的優(yōu)化。

MiniMax在官方發(fā)布中明確表示，M2.5是其M系列模型的最新迭代，延續(xù)了M2.1的核心技術(shù)框架。

根據(jù)MiniMax發(fā)布的技術(shù)演進(jìn)文檔，從M1到M2.5的技術(shù)發(fā)展脈絡(luò)清晰：M1專注于推理深度的突破，M2聚焦于高效編碼和智能體工作流，而M2.5則在此基礎(chǔ)上進(jìn)一步強(qiáng)化了多場景應(yīng)用能力。M2.5并非全新的技術(shù)范式，而是在M2.1基礎(chǔ)上的工程優(yōu)化和能力增強(qiáng)。

二、技術(shù)框架分析：延續(xù)與工程優(yōu)化

2.1 整體架構(gòu)設(shè)計(jì)

根據(jù)MiniMax官方發(fā)布的技術(shù)信息，M2.5采用了與M2相同的混合專家模型（MoE）架構(gòu)，總參數(shù)規(guī)模達(dá)到2300億，但在推理時僅激活100億參數(shù)。這種“極端稀疏性”的設(shè)計(jì)哲學(xué)是M系列的核心特征，旨在實(shí)現(xiàn)“小激活、大智慧”的計(jì)算效率。

從技術(shù)演進(jìn)的視角來看，M2.5的框架基本完全延續(xù)M2.1。根據(jù)MiniMax發(fā)布的技術(shù)演進(jìn)文檔，M2.1主要強(qiáng)化了多語言編程能力，專注于解決復(fù)雜軟件工程中的跨語言邏輯對齊問題；而M2.5則在此基礎(chǔ)上進(jìn)一步優(yōu)化了在編程、工具調(diào)用、搜索增強(qiáng)（RAG）以及辦公生產(chǎn)力場景中的表現(xiàn)。這說明M2.5的架構(gòu)層面并未發(fā)生根本性變革，而是在已有框架下的工程更新和能力擴(kuò)展。

2.2 Forge智能體原生強(qiáng)化學(xué)習(xí)框架

M2.5延續(xù)了名為Forge的智能體原生強(qiáng)化學(xué)習(xí)框架，此框架從M2.1開始推出。根據(jù)官方發(fā)布的技術(shù)說明，F(xiàn)orge的核心設(shè)計(jì)理念是引入一個中間層，將底層訓(xùn)練-推理引擎與智能體完全解耦，從而支持任意智能體的集成，并能夠優(yōu)化模型在不同智能體腳手架和工具間的泛化能力。

在系統(tǒng)吞吐量優(yōu)化方面，F(xiàn)orge采用了異步調(diào)度策略來平衡系統(tǒng)吞吐量與樣本偏離度（sample off-policyness）之間的矛盾。此外，F(xiàn)orge還設(shè)計(jì)了樹狀結(jié)構(gòu)合并策略用于訓(xùn)練樣本處理，據(jù)官方稱該策略實(shí)現(xiàn)了約40倍的訓(xùn)練加速。這一工程優(yōu)化顯著提升了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的效率。

2.3 強(qiáng)化學(xué)習(xí)算法與獎勵設(shè)計(jì)

在算法層面，M2.5繼續(xù)采用MiniMax于2024年初提出的CISPO算法。根據(jù)官方說明，該算法的主要作用是確保MoE模型在大規(guī)模訓(xùn)練過程中的穩(wěn)定性。

針對智能體 rollout中長上下文帶來的信用分配（credit assignment）挑戰(zhàn)，M2.5引入了過程獎勵機(jī)制，用于端到端監(jiān)控生成質(zhì)量。此外，為了深度對齊用戶體驗(yàn)，模型還通過智能體軌跡評估任務(wù)完成時間，從而在模型智能與響應(yīng)速度之間實(shí)現(xiàn)最優(yōu)權(quán)衡。這種獎勵設(shè)計(jì)反映了MiniMax對實(shí)際應(yīng)用場景的重視。

2.4 訓(xùn)練數(shù)據(jù)與評估體系

M2.5的訓(xùn)練覆蓋了超過10種編程語言，包括Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart和Ruby，訓(xùn)練環(huán)境超過20萬個真實(shí)場景。這一廣泛的語言和場景覆蓋確保了模型在多元化開發(fā)環(huán)境中的泛化能力。

在辦公場景方面，M2.5的訓(xùn)練深度整合了金融、法律和社會科學(xué)等領(lǐng)域資深專業(yè)人士的領(lǐng)域知識。這些專家不僅設(shè)計(jì)需求、提供反饋、參與標(biāo)準(zhǔn)定義，還直接參與數(shù)據(jù)構(gòu)建，將各自行業(yè)的隱性知識融入模型訓(xùn)練流程。這種專業(yè)化的數(shù)據(jù)構(gòu)建策略是M2.5在專業(yè)辦公場景中取得突破的關(guān)鍵因素。

評估體系方面，MiniMax構(gòu)建了內(nèi)部Cowork Agent評估框架（GDPval-MM），該框架通過成對比較評估交付物的質(zhì)量和智能體軌跡的專業(yè)性，同時監(jiān)控整個工作流程的token消耗，以估算模型在實(shí)際生產(chǎn)中的效率提升。

三、性能表現(xiàn)與基準(zhǔn)測試

3.1 編程能力

根據(jù)MiniMax官方發(fā)布的數(shù)據(jù)，M2.5在多項(xiàng)編程評估中達(dá)到了行業(yè)領(lǐng)先水平。在SWE-Bench Verified測試中，M2.5得分80.2%；在Multi-SWE-Bench測試中，得分51.3%。

M2.5在跨分布 harness 的泛化能力方面也表現(xiàn)出色。在使用不同編程智能體 harness 對 SWE-Bench Verified 評估集進(jìn)行測試時，M2.5在Droid harness上得分79.7%（優(yōu)于Opus 4.6的78.9%），在OpenCode harness上得分76.1%（優(yōu)于Opus 4.6的75.9%）。

一個顯著改進(jìn)是M2.5具備了架構(gòu)師思維的能力。根據(jù)官方說明，這一特性是在訓(xùn)練過程中自然涌現(xiàn)的：M2.5在編寫任何代碼之前，會從經(jīng)驗(yàn)豐富的軟件架構(gòu)師視角主動分解和規(guī)劃項(xiàng)目的功能、結(jié)構(gòu) 和UI設(shè)計(jì)。這種“規(guī)范先行”的編程習(xí)慣對于復(fù)雜系統(tǒng)工程開發(fā)具有重要價值。

3.2 搜索與工具調(diào)用

在BrowseComp和Wide Search等基準(zhǔn)測試中，M2.5實(shí)現(xiàn)了行業(yè)領(lǐng)先的性能表現(xiàn)。同時，模型的泛化能力也有所提升——在面對不熟悉的腳手架環(huán)境時，M2.5表現(xiàn)出更穩(wěn)定的性能。

為了更準(zhǔn)確地評估真實(shí)專業(yè)任務(wù)中的搜索能力，MiniMax構(gòu)建了RISE（Realistic Interactive Search Evaluation）基準(zhǔn)。官方表示，測試結(jié)果表明M2.5在真實(shí)世界專業(yè)任務(wù)中表現(xiàn)優(yōu)異，擅長專家級搜索任務(wù)。

在智能體任務(wù)決策方面，M2.5展現(xiàn)出更優(yōu)的問題解決能力：它學(xué)會了用更精準(zhǔn)的搜索輪次和更高的token效率來解決問題。例如，在BrowseComp、Wide Search和RISE等多個智能體任務(wù)中，M2.5以更少的輪次實(shí)現(xiàn)了更好的結(jié)果，相比M2.1節(jié)省了約20%的搜索輪次。這表明模型不僅能夠獲得正確答案，還能通過更高效的推理路徑達(dá)成目標(biāo)。

3.3 辦公生產(chǎn)力

在辦公場景方面，M2.5經(jīng)過訓(xùn)練能夠產(chǎn)生真正可交付的輸出成果。在Word、PowerPoint和Excel金融建模等高價值工作場景中，M2.5實(shí)現(xiàn)了顯著的能力提升。在與主流模型的對標(biāo)測試中，M2.5的平均勝率達(dá)到59.0%。

四、成本、效率和市場

M2.5原生支持的推理速度達(dá)到100 tokens/秒，接近其他前沿模型的兩倍。此外，強(qiáng)化學(xué)習(xí)訓(xùn)練策略激勵模型高效推理和最優(yōu)任務(wù)分解。得益于這三個因素的協(xié)同作用，M2.5在復(fù)雜任務(wù)完成方面實(shí)現(xiàn)了顯著的時間節(jié)省。

具體而言，在運(yùn)行SWE-Bench Verified時，M2.5平均每個任務(wù)消耗352萬tokens，而M2.1消耗372萬tokens。得益于并行工具調(diào)用等能力改進(jìn)，端到端運(yùn)行時間從平均31.3分鐘減少到22.8分鐘，提升37%。這一速度與Claude Opus 4.6的22.9分鐘基本持平，而單個任務(wù)的總成本僅為Claude Opus 4.6的10%。

4.2 定價策略與市場反響

根據(jù)MiniMax官方發(fā)布的信息，M2.5系列包含兩個版本：M2.5和M2.5-Lightning，兩者在能力上完全相同，僅在速度上存在差異。

M2.5-Lightning的穩(wěn)定吞吐量達(dá)到100 tokens/秒，是其他前沿模型的兩倍速度，價格為每百萬輸入tokens 0.3美元，每百萬輸出tokens 2.4美元。M2.5的吞吐量為50 tokens/秒，價格減半。兩個版本都支持緩存功能。

根據(jù)輸出價格計(jì)算，M2.5的成本是Opus、Gemini 3 Pro和GPT-5的十分之一到二十分之一。以100 tokens/秒的速率連續(xù)運(yùn)行一小時M2.5的成本僅為1美元；以50 TPS的速率運(yùn)行，成本降至0.3美元。換言之，用戶可以以每年10,000美元的價格讓四個M2.5實(shí)例全年不間斷運(yùn)行。

MiniMax在官方發(fā)布中表示，設(shè)計(jì)M2系列基礎(chǔ)模型的目標(biāo)是打造能夠驅(qū)動復(fù)雜智能體而無需擔(dān)憂成本的模型。M2.5被定位為首款讓用戶無需擔(dān)憂成本的前沿模型。

2026年2月12日，智譜也發(fā)布了新一代旗艦?zāi)Ｐ虶LM-5。根據(jù)公開信息，GLM-5的參數(shù)規(guī)模達(dá)到744B，在編程任務(wù)上實(shí)現(xiàn)了對Claude Opus 4.5的對齊，擅長復(fù)雜系統(tǒng)工程與長程智能體任務(wù)。

在定價方面，智譜同期宣布對GLM Coding Plan套餐價格進(jìn)行結(jié)構(gòu)性調(diào)整，整體漲幅自30%起。值得注意的是，這是國產(chǎn)大模型近期以來的首次大幅提價。GLM-5海外版的價格漲幅更高： Coding plan訂閱價格提高30%-60%，API調(diào)用價格提升67%-100%。

本次，智譜學(xué)習(xí)硅谷前沿模型，先期在OpenRouter上線名為Pony Alpha的測試版本，整體期待和熱度延續(xù)較長。截止發(fā)稿，近五日來，智譜股價已上漲114.88%。

與之相比，本次Minimax M2.5發(fā)布相對較為低調(diào)。但股價在過去五天之間亦有34.69%的漲幅。

六、應(yīng)用生態(tài)與落地情況

M2.5已全面部署在MiniMax Agent中，提供最佳的智能體體驗(yàn)。MiniMax將核心信息處理能力提煉為標(biāo)準(zhǔn)化的Office Skills，深度集成在MiniMax Agent中。在MAX模式下，當(dāng)處理Word格式化、PowerPoint編輯和Excel計(jì)算等任務(wù)時，MiniMax Agent會自動根據(jù)文件類型加載對應(yīng)的Office Skills，從而提升任務(wù)輸出的質(zhì)量。

用戶還可以將Office Skills與領(lǐng)域特定的行業(yè)專業(yè)知識結(jié)合，創(chuàng)建針對特定任務(wù)場景的可復(fù)用Expert。截至目前，用戶已在MiniMax Agent上構(gòu)建了超過10,000個Expert，這一數(shù)字仍在快速增長。MiniMax自身也構(gòu)建了多套針對高頻場景（如辦公、金融、編程）深度優(yōu)化的即用型Expert套件。

在MiniMax公司內(nèi)部的日常運(yùn)營中，M2.5自主完成了30%的整體任務(wù)，涵蓋研發(fā)、產(chǎn)品、銷售、人力資源和財務(wù)等部門，滲透率持續(xù)上升。在編程場景中，M2.5生成的代碼占新增提交代碼的80%。這些內(nèi)部應(yīng)用數(shù)據(jù)為M2.5的能力提供了實(shí)際落地驗(yàn)證。

七、總結(jié)

綜合來看，MiniMax M2.5作為M2系列的最新迭代，在技術(shù)框架上基本延續(xù)了M2.1的核心架構(gòu)，主要通過工程優(yōu)化實(shí)現(xiàn)了能力增強(qiáng)。M2.5的核心價值主張?jiān)谟冢阂赃h(yuǎn)低于同類產(chǎn)品的價格，提供接近頂級模型的性能表現(xiàn)，特別是在編程、智能體任務(wù)和辦公生產(chǎn)力等高價值場景中。

從技術(shù)演進(jìn)的角度來看，M2.5的成功發(fā)布驗(yàn)證了MiniMax在MoE架構(gòu)和強(qiáng)化學(xué)習(xí)Scaling方面的技術(shù)路徑。從商業(yè)角度來看，M2.5的定價策略可能會對國內(nèi)大模型市場的定價邏輯產(chǎn)生深遠(yuǎn)影響，為智能體應(yīng)用的大規(guī)模落地提供了更具經(jīng)濟(jì)可行性的選擇。

本文來自“騰訊科技”，作者：Minimax 2.5，編輯：庫丘林，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

MeetBrands出海新向標(biāo) | 帶電品類引領(lǐng)出海：家電破局之路

寧波大學(xué)面向全球誠聘3名二級學(xué)院院長助力雙一流建設(shè)

31.22秒！中國少年團(tuán)隊(duì)有望刷新紙飛機(jī)滯空吉尼斯紀(jì)錄，此前已斬獲距離紀(jì)錄

新春走基層｜中國各地年夜飯的必吃硬菜大盤點(diǎn)

5天暴漲142%！智能體賽道徹底爆發(fā)，行業(yè)大佬預(yù)判未來熱度將飆升千倍

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂