35天,成了AI模型的“保質(zhì)期”
上個(gè)月你剛花20美元開通ChatGPT Plus會(huì)員,這個(gè)月朋友圈就被“Claude秒殺所有模型”的消息刷屏,再過一個(gè)月,可能又換成“Gemini才是真神”。
看著每月自動(dòng)扣錢的賬單,你難免疑惑:這些AI會(huì)員,到底要開到什么時(shí)候才是頭?
這并非你的錯(cuò)覺。知名大模型評(píng)測平臺(tái)LMArena.ai分析了2023年年中以來的模型排名數(shù)據(jù),揭露了大模型行業(yè)最殘酷的現(xiàn)實(shí):

排名第一的模型平均只能保持約35天的領(lǐng)先地位,通常5個(gè)月內(nèi)就會(huì)跌出前五,7個(gè)月內(nèi)跌出前十。
曾經(jīng)風(fēng)光無限的OpenAI o1現(xiàn)在排第56位,Claude 3 Opus更是跌到了第139位。

雖然LMArena.ai的榜單可能存在一定水分,但這種頻繁洗牌的現(xiàn)象,還是反映出AI模型“過氣”速度之快——35天,正在成為頂級(jí)AI模型的“保質(zhì)期”。
億級(jí)投流,留不住“嘗鮮”的用戶
過去兩年,互聯(lián)網(wǎng)上流傳著一張關(guān)于大模型迭代的梗圖,生動(dòng)展現(xiàn)了行業(yè)的變化。

去年年初還是ChatGPT一家獨(dú)大,后來DeepSeek、Claude相繼崛起,如今Gemini又異軍突起。無論2025還是2026年,性能始終是用戶選擇AI模型的核心標(biāo)準(zhǔn)。
用戶的選擇很純粹:哪款模型好用、順手,就用哪款。現(xiàn)在的AI用戶,確實(shí)沒什么“忠誠度”可言。
比如Sora 2剛發(fā)布時(shí),被稱為“短視頻的降維打擊”,5天內(nèi)下載量破百萬,但a16z合伙人Olivia Moore公布的數(shù)據(jù)顯示,它的30天用戶留存率僅1%,60天幾乎歸零。

把目光轉(zhuǎn)向國內(nèi),大模型競爭同樣激烈:AI應(yīng)用每月投流規(guī)模動(dòng)輒千萬甚至上億,但除了初期能吸引一波流量,用戶留存率依然很低。
這種“新鮮感一過就走”的現(xiàn)象,和AI熱潮催生的“FOMO(錯(cuò)失恐懼)”心理有關(guān)——很多用戶只是為了跟上潮流、體驗(yàn)新鮮工具,試過之后就轉(zhuǎn)身離開。
更深層的原因是,多數(shù)AI產(chǎn)品還沒建立起留住用戶的閉環(huán)。
過去的SaaS行業(yè),“因某功能而來,因生態(tài)而留”是經(jīng)典的增長邏輯。比如有人最初用Canva做社交海報(bào),后來卻被品牌素材庫、模板和團(tuán)隊(duì)協(xié)作功能吸引,成為長期用戶;有人第一次點(diǎn)開微信視頻號(hào),是因?yàn)榕笥讶Φ霓D(zhuǎn)發(fā),但熟人互動(dòng)讓他們留了下來。
內(nèi)容本身可能不驚艷,但被熟人關(guān)系包裹著——你可能不關(guān)心視頻內(nèi)容,但會(huì)在意誰轉(zhuǎn)發(fā)了、誰留言了,點(diǎn)贊既是支持創(chuàng)作者,也是維持關(guān)系。
但這套邏輯在多數(shù)AI產(chǎn)品上失靈了。

最典型的就是Sora 2,雖然能生成以假亂真的視頻,但沒有原生社區(qū)讓用戶分享、互動(dòng)、獲得反饋,它終究只是個(gè)孤立工具——除了少數(shù)專業(yè)人士,普通用戶很難有長期使用的需求。
此外,重度用戶的使用習(xí)慣也在改變。
英偉達(dá)CEO黃仁勛曾公開分享自己的用法:不依賴單一模型,而是把同一個(gè)問題拋給多個(gè)AI,讓它們互相驗(yàn)證,提升回答質(zhì)量。

這背后的邏輯很簡單:沒有哪個(gè)模型能“包打天下”,不同模型各有優(yōu)勢(shì)。現(xiàn)在ChatGPT已不是唯一選擇,用Claude寫長文本、Gemini寫代碼、多模型協(xié)作才是常態(tài)。
更關(guān)鍵的是,科技巨頭早已擁有成熟的生態(tài),能把AI能力無縫嵌入現(xiàn)有產(chǎn)品。
谷歌有一套驗(yàn)證了二十年的入口體系,能把Gemini嵌入YouTube、Workspace辦公套件,還能綁定Chrome、地圖等核心流量入口,同時(shí)開放API吸引開發(fā)者。

這種“潤物細(xì)無聲”的分發(fā)方式,讓Gemini輕松獲得大量普通用戶和企業(yè)客戶,也讓ChatGPT用戶搖擺不定。
面對(duì)用戶使用意圖弱、遷移成本低的困境,以O(shè)penAI為代表的初創(chuàng)公司開始“筑墻”:和生態(tài)廠商合作,推出AI Office、AI瀏覽器、AI群聊等產(chǎn)品。

用Sam Altman的話說,這是“用AI重構(gòu)一切,釋放最大生產(chǎn)力”,但換個(gè)角度看,也是“入口焦慮”下的被動(dòng)選擇。
另一方面,OpenAI在C端押注“個(gè)性化記憶”和“情商”:允許模型跨會(huì)話記住用戶的寫作風(fēng)格、專業(yè)術(shù)語,還能手動(dòng)編輯記憶庫;針對(duì)心理咨詢等場景優(yōu)化語氣,本質(zhì)是通過個(gè)性化和“情感綁定”提高用戶遷移門檻。
但這些努力短期內(nèi)很難逆轉(zhuǎn)用戶流失的趨勢(shì)。當(dāng)產(chǎn)品突破越來越難,一些廠商開始在“捷徑”上動(dòng)腦筋——在衡量性能的榜單上做手腳。
“我隨時(shí)能換,也該隨時(shí)換”
前面提到的“35天保質(zhì)期”,核心參考LMArena反映的行業(yè)趨勢(shì),但需要說明的是,即使是這份相對(duì)權(quán)威的榜單,也藏著不少貓膩。
Meta之前被曝出的“刷榜”行為,就揭開了榜單的“遮羞布”。
發(fā)布Llama 4前,Meta私下測試了27個(gè)變體版本,卻只公布分?jǐn)?shù)最高的“特供版”,靠著這種方式,Llama 4一度霸榜。但正式版發(fā)布后,排名從第2暴跌到第32位,“濾鏡”瞬間破碎。

榜單的評(píng)測機(jī)制也有問題:理論上是用戶輸入提示,比較兩個(gè)AI的回應(yīng),選出更好的那個(gè);但實(shí)際情況是,隨機(jī)網(wǎng)民匆匆掃一眼,用兩秒鐘點(diǎn)擊“感覺不錯(cuò)”的選項(xiàng)。
Surge AI在《LMArena is a cancer on AI》一文中指出,平臺(tái)上52%的對(duì)決判定有誤,大眾投票更偏愛回答冗長、排版華麗甚至帶表情包的“顯眼包”。
很多時(shí)候,AI只要“自信地胡說八道”,就能輕松擊敗誠實(shí)但枯燥的對(duì)手。
當(dāng)“刷榜作弊”成了行業(yè)潛規(guī)則,用戶對(duì)模型的信任也在不斷被消耗。再加上模型頻繁出現(xiàn)的“降智”更新,用戶對(duì)“榜一大哥”的“祛魅”,只是時(shí)間問題。

而開源和低價(jià)模型的崛起,進(jìn)一步?jīng)_擊了行業(yè)格局。
微軟內(nèi)部數(shù)據(jù)顯示,DeepSeek R1極大推動(dòng)了全球多數(shù)地區(qū)的AI普及:在白俄羅斯占56%的份額,古巴49%、俄羅斯43%,甚至埃塞俄比亞和津巴布韋也分別達(dá)到18%和17%。

圖片來自金融時(shí)報(bào)
原因很簡單:價(jià)格低。
對(duì)大多數(shù)人來說,免費(fèi)模型已經(jīng)能滿足日常需求,用戶自然會(huì)產(chǎn)生這種心態(tài):我隨時(shí)能換,也該隨時(shí)換。對(duì)開發(fā)者而言,即使OpenAI等巨頭多次降價(jià),其每Token的收費(fèi)依然遠(yuǎn)高于DeepSeek。
此外,開發(fā)者基于Qwen、DeepSeek等開源模型,針對(duì)教育、醫(yī)療等細(xì)分場景做輕量化微調(diào),誕生了一批“小而美”的垂直模型。它們?cè)谕ㄓ冒駟紊戏謹(jǐn)?shù)不高,但特定場景的表現(xiàn)遠(yuǎn)超閉源巨頭,進(jìn)一步削弱了頭部模型的話語權(quán)。
在這種背景下,卡在中間的AI玩家最尷尬:既不夠強(qiáng),也不夠便宜,卻還想靠刷榜、講故事維持存在感。在“35天保質(zhì)期”面前,他們幾乎沒有回旋余地。
等待他們的結(jié)局,只有被“淘汰”。
本文來自微信公眾號(hào)“APPSO”,作者:發(fā)現(xiàn)明日產(chǎn)品的,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





