欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

國產(chǎn)首個對標(biāo)Gemini3的大模型來了!阿里千問Qwen3-Max-Thinking實測體驗

01-29 07:09

國產(chǎn)首個對標(biāo)Gemini3的大模型,正式亮相。


1月26日,阿里巴巴發(fā)布了旗下旗艦推理模型Qwen3-Max-Thinking。


該模型總參數(shù)超萬億,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T Tokens,在科學(xué)知識(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等權(quán)威評測中刷新全球紀(jì)錄。它在數(shù)學(xué)推理AIME 25和HMMT 25中斬獲國內(nèi)首個雙滿分,在HLE測試中得分58.3,大幅領(lǐng)先GPT-5.2-Thinking的45.5與Gemini 3 Pro的45.8。



從發(fā)布時機(jī)來看,當(dāng)前AI圈各大廠商均在蓄力,阿里此時推出Qwen3-Max-Thinking,顯然意在搶占“國產(chǎn)首個Gemini 3級大模型”的先機(jī)。


盡管評測數(shù)據(jù)亮眼,但它能否真正媲美Gemini3?


測試發(fā)現(xiàn),Qwen生成代碼的初期失敗率較高,但在阿里熟悉的電商場景中表現(xiàn)突出。例如搭建水果電商網(wǎng)站時,商品分類、購物車、結(jié)算等功能可一次完成,邏輯完整且體驗流暢,這得益于淘寶天貓的海量場景數(shù)據(jù)積累。


不過在其他領(lǐng)域,成功率穩(wěn)定性不足。若需求契合其優(yōu)勢場景,體驗較好;反之則需多次調(diào)整提示詞。


針對Gemini 3曾展示的體感控制打氣球游戲案例(通過攝像頭實現(xiàn)手勢控制準(zhǔn)星、捏合動作射擊,包含天空背景、云層漂移、擊中特效、連擊反饋等細(xì)節(jié)),Qwen的表現(xiàn)令人意外。


千問的表現(xiàn)超出預(yù)期。游戲框架一次搭建完成:天空漸變背景、氣球從底部生成并上升、不同大小氣球速度各異、UI顯示分?jǐn)?shù)與連擊數(shù),基礎(chǔ)邏輯均無問題。


交互設(shè)計頗具巧思。伸出食指時準(zhǔn)星隨手指移動,拇指與食指捏合即可開火。擊中氣球瞬間屏幕輕微震動,氣球爆炸有粒子特效與“啵”的音效,反饋感充足。連續(xù)擊中會顯示combo數(shù)字,即時反饋增強(qiáng)代入感。


但實際操作存在明顯缺陷:瞄準(zhǔn)精度不足。手指對準(zhǔn)氣球時,準(zhǔn)星位置常出現(xiàn)偏差,需多次嘗試才能命中。這可能源于手部追蹤與屏幕坐標(biāo)映射的偏差,或校準(zhǔn)算法精度不足。盡管Qwen實現(xiàn)了體感控制全流程(攝像頭調(diào)用、手勢識別、射擊反饋等環(huán)節(jié)均打通),但核心的“指哪打哪”精度未達(dá)理想效果,影響游戲體驗。


Qwen3-Max-Thinking的核心突破并非參數(shù)規(guī)模,而是推理方式的革新。該模型采用全新的測試時擴(kuò)展(Test-time Scaling)機(jī)制,在提升推理性能的同時兼顧經(jīng)濟(jì)性。


傳統(tǒng)AI解題方式類似“多答案投票”:生成10份答案后選擇支持率最高的,但這種方法算力消耗大且易出現(xiàn)共性錯誤。Qwen3則采用類人思維:先完成解題,再復(fù)盤修正,如同人類使用錯題本,二次解題準(zhǔn)確率更高。這使其在工具使用測試中得分58.3,遠(yuǎn)超Gemini的45.8。


在工具調(diào)用方面,Qwen將工具使用能力“訓(xùn)練內(nèi)化”。通義團(tuán)隊先通過微調(diào)教會模型使用工具,再在多樣化任務(wù)中進(jìn)行規(guī)則獎勵與模型獎勵的聯(lián)合強(qiáng)化學(xué)習(xí),使模型具備智能結(jié)合工具思考的能力。


這種三步訓(xùn)練法(工具使用教學(xué)→強(qiáng)化練習(xí)→形成條件反射)的優(yōu)勢在于:工具調(diào)用更高效流暢,無需重復(fù)學(xué)習(xí)工具說明,且模型能自主判斷工具使用時機(jī)。這正是Qwen在HLE測試中領(lǐng)先12分的關(guān)鍵,尤其在連續(xù)使用多工具解決復(fù)雜問題時,這種“肌肉記憶”優(yōu)勢更為明顯。


相比之下,Gemini采用傳統(tǒng)軟件工程思路:模型負(fù)責(zé)理解意圖,工具調(diào)用依賴外部API框架。這種方式靈活性強(qiáng)(如接入沃爾瑪購物功能無需重新訓(xùn)練模型),但每次調(diào)用需經(jīng)過“意圖理解→API翻譯→執(zhí)行→結(jié)果解析”流程,效率低且易出錯。


Qwen的代碼生成能力已超越“語法翻譯器”,更接近理解需求的技術(shù)伙伴。它不僅能將需求轉(zhuǎn)化為可運(yùn)行代碼,還具備工程直覺:懂得何時優(yōu)化性能、簡化實現(xiàn)或添加容錯機(jī)制。


這種對“度”的把握,是AI從“工具”向“協(xié)作者”進(jìn)化的關(guān)鍵標(biāo)志。


本文來自微信公眾號“硅星人Pro”,作者:Yoky,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com