小米打響Token價格戰(zhàn):降幅最高99%,國產大模型賽道生變
本文來自微信公眾號:APPSO,作者:發(fā)現(xiàn)明日產品的
此前看漲2026年Token價格的行業(yè)觀察者,短短一周內接連迎來兩次出乎意料的行業(yè)變動。
5月22日,DeepSeek率先宣布DeepSeek V4 Pro永久降價;就在5月27日凌晨,小米跟進推出MiMo-V2.5系列大模型降價調整,最高降幅達到了99%。
除了直接下調API定價,小米還同步優(yōu)化了Token Plan計費體系,在保持原有月費定價不變的前提下,將可用Token額度提升到原來的5到8倍。

消息放出后,海外Reddit、X平臺以及全球各大開發(fā)者社區(qū)里,關于小米MiMo模型降價的討論熱度迅速上漲,很快成為AI圈的熱門話題。

如今全行業(yè)都在感嘆大模型Token成本高企,小米為什么偏偏選擇在這個時候逆勢降價?這一波價格操作,又會給國內AI大模型行業(yè)帶來怎樣的變化?
最高降幅九成九,定價規(guī)則貼合真實生產場景
根據小米官方公告,此次旗下AI大模型MiMo-V2.5系列的API調整為永久降價,最高降幅達99%,并且新定價不再區(qū)分上下文長度,新價格已經在北京時間5月27日0點面向全球同步生效。

需要說明的是,99%的最高降幅并非所有調用都按最低價計費,價格差異的核心在于輸入緩存是否命中。
以MiMo-V2.5-Pro為例,如果請求命中緩存,輸入價格可以低至每百萬Tokens約0.025元;如果輸入緩存沒有命中,輸入價格則維持在每百萬Tokens 3元,輸出價格為每百萬Tokens 6元。
也就是說,這個極低價格成立的前提,是請求能大量命中緩存。
對于高重復上下文場景、高頻Agent應用、多輪代碼開發(fā)任務以及批量推理任務來說,這個定價的吸引力極強;但如果應用場景的緩存命中率本身很低,實際使用的成本自然不會降到最低點。
升級后的Token Plan也遵循了類似的定價邏輯。

小米保持原有四檔月費定價不變:Lite、Standard、Pro、Max四個檔位的月費依然是39元、99元、329元和659元,但可使用的Credits額度,已經從原來的0.6億、2億、7億、16億,分別提升到了41億、110億、380億、820億。
按照新的Credits換算規(guī)則,MiMo-V2.5-Pro緩存命中僅需要2.5 Credits每token,未命中緩存需要300 Credits每token,輸出則為600 Credits每token。

小米這次的打法,和此前DeepSeek的操作思路高度一致。我們可以簡單梳理時間線:4月24日DeepSeek發(fā)布V4預覽版;次日V4-Pro就開啟2.5折優(yōu)惠;4月26日緩存命中價格進一步降到首發(fā)價的十分之一;到5月22日,臨時折扣直接轉為永久降價,V4-Pro最終降到了原價的四分之一。
經過這一輪調整,DeepSeek-V4-Pro的緩存命中輸入價格已經從0.1元降到0.025元。而小米MiMo-V2.5-Pro的火速跟進,直接把國產大模型的緩存命中輸入價格穩(wěn)定在了0.025元這個低位基準線。

DeepSeek和小米都選擇把最低價放在緩存命中場景,原因其實很清晰:當前大模型已經從單純的聊天對話,轉向落地實際生產任務,而Agent才是Token消耗真正大幅增長的領域。
在普通聊天場景里,用戶提問一次,模型回答一次,Token成本相對容易控制和估算。
但在Agent場景中,一個完整任務往往包含長上下文處理、多輪推理、代碼生成、工具調用、內容讀取、文件分析和結果校驗多個環(huán)節(jié)。用戶最終只看到一次輸出,后臺卻已經完成了多次請求,重復讀取了大量上下文內容。
這就是緩存命中定價的核心意義所在。
Agent應用、代碼助手、長上下文工具都有一個共同特點:很多內容會被重復調用,比如系統(tǒng)提示詞、項目代碼、API文檔、工具說明、歷史對話、依賴文件等等。這些內容如果每次請求都重新計算,成本會非常高;但如果可以緩存,下次使用時只按緩存價格計費,推理成本就能大幅降低。
換句話說,緩存命中定價越低,就越適合高頻、多輪、長上下文的真實生產場景。DeepSeek和小米打出低價,本質上是希望吸引開發(fā)者和高頻應用遷移到自己的模型平臺,讓更多Agent、代碼助手、辦公自動化應用選擇部署在自己的生態(tài)中。
實際上小米此前就已經通過MiMo Orbit、百萬億Token創(chuàng)造者激勵計劃等活動,吸引用戶體驗MiMo模型、解決真實問題。這個百萬億Token激勵計劃從4月28日上線,到5月26日16:08,100T Tokens就已經全部提前發(fā)放完畢,可見開發(fā)者的參與熱度非常高。
從平臺的角度來看,低價Token和免費額度換來的是海量真實調用數據。這些真實調用會產生復雜任務、失敗樣本、用戶反饋、Agent工作流、代碼場景和長上下文數據,反過來又能幫助模型和推理系統(tǒng)完成技術迭代。
開發(fā)者社區(qū)里所謂的“養(yǎng)蝦黨”現(xiàn)象,也符合這個邏輯:用戶在最大化使用免費額度的同時,其實也在幫助平臺測試負載、暴露系統(tǒng)問題、積累真實調用數據。
所以算這筆賬不能只看單次推理的短期毛利,壓低短期收入,換來的是開發(fā)者遷移、調用規(guī)模增長和真實產品反饋,對于想要搶占Agent生態(tài)位置的模型廠商來說,這是一筆性價比極高的平臺投入。
低價背后是技術支撐,行業(yè)篩選加速到來
不過小米這次降價,最有意思的一點在于,它和小米MiMo大模型負責人羅福莉此前的公開表態(tài)形成了有趣的反差。
一個月前,羅福莉還公開反對Token價格戰(zhàn),她當時的判斷是:無底線的低價Token加上開放第三方Agent框架,很容易讓平臺陷入成本失控的困境。
她當時提到,第三方Agent框架往往對上下文管理比較粗放,單次用戶查詢就可能觸發(fā)多輪低價值工具調用,每次請求還要攜帶超過10萬token的超長上下文。如果平臺沒辦法約束這類無效消耗,真實的API成本可能會達到訂閱價格的數十倍。
她還認為,當前全球算力供給已經跟不上Agent帶來的Token需求增長,大模型企業(yè)在沒有厘清編程和Agent場景成本結構之前,盲目打價格戰(zhàn)最終會導致限流、降配、穩(wěn)定性下降,反而會損害用戶體驗。
而小米這次降價,其實并沒有推翻此前的判斷,只是改變了價格戰(zhàn)能夠成立的前提:羅福莉此前反對的是沒有成本結構支撐的虧本低價,但現(xiàn)在小米已經拿出了能夠支撐低價的工程技術方案。
根據小米官方披露,其技術團隊基于SGLang HiCache完整支持了SWA也就是滑動窗口注意力機制,將KV緩存在GPU顯存、CPU內存、SSD等多級存儲之間的數據搬運量,降低到優(yōu)化前的近七分之一,同時把可緩存的Token數量提升到優(yōu)化前的近五倍。
除此之外,小米還優(yōu)化了專家并行方案和輸入長度分桶策略,提升了集群的輸入吞吐能力。如果沒有這樣的工程技術能力,低價很容易變成不可持續(xù)的補貼;只有擁有足夠強的底層基礎設施能力,低價才能轉化為長期的市場優(yōu)勢。
價格戰(zhàn)考驗的不只是工程技術,還要考驗企業(yè)的后方支撐厚度。
和純AI模型創(chuàng)業(yè)公司不同,小米本身擁有手機、汽車、IoT以及消費電子等成熟主業(yè),這些業(yè)務能給大模型業(yè)務提供更長的投入周期,也讓小米擁有更大的戰(zhàn)略耐心,可以把大模型服務當作AI生態(tài)的入口來布局,不用陷入只盯著短期API收入計算盈虧的困局。
這種降價對于中小模型廠商來說并不友好:沒有主業(yè)輸血、沒有過硬的底層基礎設施能力、也沒有足夠調用規(guī)模攤薄成本的玩家,根本沒辦法長期跟進這樣的低價。
DeepSeek的降價已經直接沖擊了不少海內外模型的市場定位,而小米MiMo跟進降價之后,更多有一定規(guī)模的廠商都會被迫調整定價,或者重新定位自身產品價值;規(guī)模更小的模型服務商,大概率會被擠壓到更細分垂直的窄賽道中。
從這個角度看,這一輪降價其實是效率導向的模型廠商對行業(yè)的一次篩選:擁有工程能力、算力調度能力和生態(tài)入口的企業(yè),才能承受更低價格帶來的壓力;只有模型能力、但推理成本沒辦法降下來的企業(yè),會越來越被動。
而且隨著Token價格下探的空間越來越小,價格越接近物理成本,單純降價帶來的競爭價值就越有限,下一階段,大模型行業(yè)會在模型質量、Agent適配、開發(fā)者工具、生態(tài)綁定、服務穩(wěn)定性和企業(yè)交付能力等多個維度展開新一輪競爭。
模型能力決定了AI發(fā)展的上限,而推理成本決定了AI普及的規(guī)模。當足夠便宜的Token真正普及到應用層,我們才能真正看清,AI的下一個爆發(fā)時代究竟是什么樣子。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





