憋了4個月,阿里最大最強模型正式版發(fā)布,附一手實測
能自主調(diào)工具,還會高效思考。
沒等來GPT-5.3、Gemini 3.5,這周的大模型發(fā)布潮先被阿里“搶跑”了!
1月26日晚,阿里巴巴推出了Qwen3-Max-Thinking,這是阿里千問系列目前能力最強的旗艦級推理模型,在19項權(quán)威基準測試中,Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等頂尖模型打得有來有回,搭配測試時擴展(TTS)能力后,能在不少基準測試上達到SOTA。

▲Qwen3-Max-Thinking基準測試結(jié)果
Qwen3-Max-Thinking新在哪兒?首先,它具備自適應工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器,省去了用戶手動選擇工具的麻煩?;蛟S是出于對模型工具調(diào)用能力的自信,千問直接把對話框的搜索標識刪除了。
這一模型還融入了阿里自己的測試時擴展思路。不同于行業(yè)里常見的“堆并行推理路徑”的做法,Qwen3-Max-Thinking并沒有一味增加并行分支,而是將有限的計算資源集中投入到更“聰明”的推理過程本身,讓模型推理更準、更省、更會“反思”。
其實,早在去年9月,阿里便曾上線Qwen3-Max的Preview版本,相較Preview版本,正式版實現(xiàn)了思考和非思考模式的有效融合。Qwen3-Max的上下文窗口為256k,參數(shù)量暫未公布,但應該與預覽版相仿,也就是超過1萬億個參數(shù)。
Qwen3-Max-Thinking不是開源模型。目前,它已經(jīng)上線Qwen Chat,在這里可以體驗到模型的自適應工具調(diào)用功能。同時,Qwen3-Max-Thinking的API也開放了,價格為2.5元/百萬輸入tokens、10元/百萬輸出tokens,還是比較有性價比的。

▲Qwen3-Max-Thinking API調(diào)用界面
值得一提的是,阿里還在同一天開源了Qwen3-TTS全系列語音合成模型,支持音色克隆、音色創(chuàng)造、擬人化語音生成,以及基于自然語言描述的語音控制。
體驗鏈接:
https://chat.qwen.ai/
API調(diào)用平臺:
https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23
01.
實測自適應搜索表現(xiàn)能力優(yōu)于ChatGPT
搜索與代碼解釋器可結(jié)合使用
Qwen3-Max-Thinking上線后,智東西第一時間進行了體驗。
我們首先來看看Qwen3-Max-Thinking的自適應工具調(diào)用能力。這是通過專門的訓練流程培養(yǎng)出來的能力:在完成初步的工具使用微調(diào)后,模型在多樣化任務上使用基于規(guī)則和模型的反饋進行了進一步訓練。
其實自適應進行搜索的能力已經(jīng)比較常見了。無論是DeepSeek、ChatGPT,都可以在一些明顯涉及即時信息的查詢中主動搜索。Qwen3-Max-Thinking也一樣,比如,當問及今天的天氣時,它便會主動搜索,給出準確回答。

對于一些并沒有明顯時效性提示的內(nèi)容,Qwen3-Max-Thinking也可以自主調(diào)用搜索。比如,我們向它提問“Clawdbot是啥”,模型先思考了一會兒發(fā)現(xiàn)沒有相關(guān)知識,然后就開始搜索,并給出完整介紹。

這點ChatGPT里的模型就做得不太好,它認為自己的知識庫里沒有的東西就是錯的,沒有進行搜索和核驗。

比如,當我們讓Qwen3-Max-Thinking“模擬拋擲一枚均勻硬幣1000次,統(tǒng)計正面朝上的次數(shù),并驗證大數(shù)定律”時,它便開啟了代碼解釋器,寫了60多行Python,完成了我的任務。它用Python生成的圖標內(nèi)容是正確的,就是畫風比較樸素。

緊接著,我們嘗試讓Qwen3-Max-Thinking結(jié)合搜索與代碼解釋器兩大工具來完成任務。
在下方任務中,Qwen3-Max-Thinking需要查詢英偉達、AMD 2026年以來的股價變動,然后生成一張圖表。檢查思考過程和代碼后,可以發(fā)現(xiàn)Qwen3-Max-Thinking雖然進行了搜索,但搜索方式有些“東一榔頭西一棒槌”,找了許多不同的來源,也沒能找到所有日期的股價情況。

不過,最終Qwen3-Max-Thinking生成的圖標還是滿足了觀察股價趨勢的基本需求,其分析結(jié)果則結(jié)合了市場分析和財報等信息,相對全面。
02.
使用高效新型推理方式
編程審美比預覽版更好
在推理時,阿里為Qwen3-Max-Thinking采用了一種經(jīng)驗累積式、多輪迭代的測試時擴展策略。
不同于簡單增加并行推理路徑數(shù)量(這往往導致冗余推理),Qwen3-Max-Thinking限制了路徑數(shù)量,并將節(jié)省的計算資源用于由“經(jīng)驗提取”機制引導的迭代式自我反思。
這一機制會從過去的推理輪次中提煉關(guān)鍵信息,讓模型避免重復推導已知結(jié)論,聚焦于未解決的不確定性。相比直接引用原始推理軌跡,該機制實現(xiàn)了更高的上下文利用效率,在相同上下文窗口內(nèi)能更充分地融合歷史信息。
在大致相同的token消耗下,該方法持續(xù)優(yōu)于標準的并行采樣與聚合方法,這讓模型在GPQA、HLE、LiveCodeBench v6等各種需要推理能力的基準測試中獲得2-4分的性能提升。
我們嘗試讓Qwen3-Max-Thinking做了一個力量與速度種群模擬器,這是我們之前測試Qwen3-Max-Preview時的同款考題。
提示詞:有兩個種群,種群a注重力量的發(fā)展,種群b注重速度的發(fā)展,請模擬一下兩個種群之間的相互作用并給出說明。
可以發(fā)現(xiàn),發(fā)送相同的提示詞后,Qwen3-Max-Thinking更喜歡使用代碼解釋器畫圖表來解決問題,而不是像Preview版本那樣生成一個網(wǎng)頁。

當我們明確要求生成一個網(wǎng)頁來模擬后,Qwen3-Max-Thinking交付了如下結(jié)果,與Qwen3-Max-Preview相比,其一次性生成的效果更豐富,UI審美也有進步。不過這可能是由于在上下文中,它已經(jīng)對這個話題做了比較充分的探索。
Qwen3-Max-Thinking生成結(jié)果:

Qwen3-Max-Preview生成結(jié)果:

X平臺上,也有網(wǎng)友已經(jīng)嘗試了Qwen3-Max-Thinking的推理能力。不過,需要注意的是,Qwen3-Max現(xiàn)在已經(jīng)隱藏了完整的思維鏈路徑,轉(zhuǎn)而提供思維鏈總結(jié),有些網(wǎng)友對此表示不接受。

AI博主Max for AI分享,Qwen3-Max-Thinking能夠憑借推理能力繞開用戶設(shè)下的邏輯陷阱,準確分析兩大開源模型家族的下載量趨勢,沒有編造不存在的數(shù)據(jù)。

03.
結(jié)語:中國大模型繼續(xù)
探索高效推理路徑
在今年1月的一次公開演講中,阿里千問大模型負責人林俊旸透露,在國內(nèi),AI研究很大的制約因素仍是算力,阿里的大模型交付工作就已經(jīng)占據(jù)很大一部分算力,留給科研的算力其實并沒有想象中那么豐富。
林俊旸的表述恰好與Qwen3-Max-Thinking的升級方向相同,通過各種技術(shù)和工程優(yōu)化,Qwen3-Max-Thinking能以更高的token效率交付結(jié)果,某種程度上降低了對算力的需求。
在未來,這種“效率優(yōu)先、精耕細算”的模式可能會繼續(xù)作為中國大模型在資源約束條件下實現(xiàn)可持續(xù)創(chuàng)新的一條主線。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



