欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<option id="mmqoc"></option>

<dfn id="mmqoc"><tr id="mmqoc"></tr></dfn>

<cite id="mmqoc"><rt id="mmqoc"></rt></cite>

國產(chǎn)首個對標(biāo)Gemini3的大模型來了！阿里千問Qwen3-Max-Thinking實測體驗

01-29 07:09

國產(chǎn)首個對標(biāo)Gemini3的大模型，正式亮相。

1月26日，阿里巴巴發(fā)布了旗下旗艦推理模型Qwen3-Max-Thinking。

該模型總參數(shù)超萬億，預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T Tokens，在科學(xué)知識（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等權(quán)威評測中刷新全球紀(jì)錄。它在數(shù)學(xué)推理AIME 25和HMMT 25中斬獲國內(nèi)首個雙滿分，在HLE測試中得分58.3，大幅領(lǐng)先GPT-5.2-Thinking的45.5與Gemini 3 Pro的45.8。

從發(fā)布時機(jī)來看，當(dāng)前AI圈各大廠商均在蓄力，阿里此時推出Qwen3-Max-Thinking，顯然意在搶占“國產(chǎn)首個Gemini 3級大模型”的先機(jī)。

盡管評測數(shù)據(jù)亮眼，但它能否真正媲美Gemini3？

測試發(fā)現(xiàn)，Qwen生成代碼的初期失敗率較高，但在阿里熟悉的電商場景中表現(xiàn)突出。例如搭建水果電商網(wǎng)站時，商品分類、購物車、結(jié)算等功能可一次完成，邏輯完整且體驗流暢，這得益于淘寶天貓的海量場景數(shù)據(jù)積累。

不過在其他領(lǐng)域，成功率穩(wěn)定性不足。若需求契合其優(yōu)勢場景，體驗較好；反之則需多次調(diào)整提示詞。

針對Gemini 3曾展示的體感控制打氣球游戲案例（通過攝像頭實現(xiàn)手勢控制準(zhǔn)星、捏合動作射擊，包含天空背景、云層漂移、擊中特效、連擊反饋等細(xì)節(jié)），Qwen的表現(xiàn)令人意外。

千問的表現(xiàn)超出預(yù)期。游戲框架一次搭建完成：天空漸變背景、氣球從底部生成并上升、不同大小氣球速度各異、UI顯示分?jǐn)?shù)與連擊數(shù)，基礎(chǔ)邏輯均無問題。

交互設(shè)計頗具巧思。伸出食指時準(zhǔn)星隨手指移動，拇指與食指捏合即可開火。擊中氣球瞬間屏幕輕微震動，氣球爆炸有粒子特效與“啵”的音效，反饋感充足。連續(xù)擊中會顯示combo數(shù)字，即時反饋增強(qiáng)代入感。

但實際操作存在明顯缺陷：瞄準(zhǔn)精度不足。手指對準(zhǔn)氣球時，準(zhǔn)星位置常出現(xiàn)偏差，需多次嘗試才能命中。這可能源于手部追蹤與屏幕坐標(biāo)映射的偏差，或校準(zhǔn)算法精度不足。盡管Qwen實現(xiàn)了體感控制全流程（攝像頭調(diào)用、手勢識別、射擊反饋等環(huán)節(jié)均打通），但核心的“指哪打哪”精度未達(dá)理想效果，影響游戲體驗。

Qwen3-Max-Thinking的核心突破并非參數(shù)規(guī)模，而是推理方式的革新。該模型采用全新的測試時擴(kuò)展（Test-time Scaling）機(jī)制，在提升推理性能的同時兼顧經(jīng)濟(jì)性。

傳統(tǒng)AI解題方式類似“多答案投票”：生成10份答案后選擇支持率最高的，但這種方法算力消耗大且易出現(xiàn)共性錯誤。Qwen3則采用類人思維：先完成解題，再復(fù)盤修正，如同人類使用錯題本，二次解題準(zhǔn)確率更高。這使其在工具使用測試中得分58.3，遠(yuǎn)超Gemini的45.8。

在工具調(diào)用方面，Qwen將工具使用能力“訓(xùn)練內(nèi)化”。通義團(tuán)隊先通過微調(diào)教會模型使用工具，再在多樣化任務(wù)中進(jìn)行規(guī)則獎勵與模型獎勵的聯(lián)合強(qiáng)化學(xué)習(xí)，使模型具備智能結(jié)合工具思考的能力。

這種三步訓(xùn)練法（工具使用教學(xué)→強(qiáng)化練習(xí)→形成條件反射）的優(yōu)勢在于：工具調(diào)用更高效流暢，無需重復(fù)學(xué)習(xí)工具說明，且模型能自主判斷工具使用時機(jī)。這正是Qwen在HLE測試中領(lǐng)先12分的關(guān)鍵，尤其在連續(xù)使用多工具解決復(fù)雜問題時，這種“肌肉記憶”優(yōu)勢更為明顯。

相比之下，Gemini采用傳統(tǒng)軟件工程思路：模型負(fù)責(zé)理解意圖，工具調(diào)用依賴外部API框架。這種方式靈活性強(qiáng)（如接入沃爾瑪購物功能無需重新訓(xùn)練模型），但每次調(diào)用需經(jīng)過“意圖理解→API翻譯→執(zhí)行→結(jié)果解析”流程，效率低且易出錯。

Qwen的代碼生成能力已超越“語法翻譯器”，更接近理解需求的技術(shù)伙伴。它不僅能將需求轉(zhuǎn)化為可運(yùn)行代碼，還具備工程直覺：懂得何時優(yōu)化性能、簡化實現(xiàn)或添加容錯機(jī)制。

這種對“度”的把握，是AI從“工具”向“協(xié)作者”進(jìn)化的關(guān)鍵標(biāo)志。

本文來自微信公眾號“硅星人Pro”，作者：Yoky，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

香菜味酸奶聯(lián)名難破局，沃爾瑪借小紅書觸達(dá)年輕人之路仍漫長

午評：滬指半日微漲0.49% 資源股強(qiáng)勢領(lǐng)漲

多地奧迪4S店閉店跑路車主預(yù)購保養(yǎng)套餐成泡影維權(quán)無門

鳴鳴很忙的啟示：在供需錯位中，如何以用戶思維破局？

重慶酒店市場：繁榮下的紅海競爭與未來機(jī)遇

項目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<fieldset id="ycek8"></fieldset>

<sup id="ycek8"></sup>