多模態(tài)大模型視覺(jué)能力全面落后:多數(shù)表現(xiàn)不及3歲兒童
多模態(tài)大模型的視覺(jué)處理能力雖遠(yuǎn)不及語(yǔ)言推理能力亮眼,但一項(xiàng)最新測(cè)試結(jié)果仍令人咋舌。
1月12日,紅杉中國(guó)xbench聯(lián)合UniPatAI團(tuán)隊(duì)發(fā)布全新多模態(tài)理解評(píng)測(cè)集BabyVision,旨在精準(zhǔn)評(píng)估大模型的核心視覺(jué)能力。
UniPatAI的技術(shù)論文顯示,首輪測(cè)試結(jié)果表明,當(dāng)前絕大多數(shù)頂尖多模態(tài)大模型的視覺(jué)任務(wù)表現(xiàn)顯著低于3歲兒童水平,僅有一款模型勉強(qiáng)達(dá)到3歲兒童的基線標(biāo)準(zhǔn)。

這種巨大的表現(xiàn)反差其實(shí)不難理解,主要是因?yàn)槿粘V心P蛷?qiáng)大的語(yǔ)言推理能力掩蓋了其視覺(jué)信息處理能力的短板。
通常,大模型面對(duì)圖像問(wèn)題時(shí)會(huì)用文字描述問(wèn)題。雖然視覺(jué)信息轉(zhuǎn)文字存在局限性,但模型能憑借強(qiáng)大的語(yǔ)言推理能力理解并解決視覺(jué)問(wèn)題。不過(guò)需要注意的是,這并非真正的視覺(jué)能力,而是基于文字信息的推理能力。因此,一旦失去語(yǔ)言能力的支撐,大模型在視覺(jué)信息處理中的短板就會(huì)完全暴露。
01
多數(shù)測(cè)試模型視覺(jué)能力不及3歲兒童
基于此,UniPatAI團(tuán)隊(duì)為首輪測(cè)試用的BabyVision-Mini設(shè)計(jì)了20道視覺(jué)中心任務(wù),嚴(yán)格控制語(yǔ)言依賴,所有題目答案均需完全依靠視覺(jué)信息得出。同時(shí),團(tuán)隊(duì)還組織了3歲、6歲、10歲、12歲四個(gè)年齡段的兒童作為對(duì)照組參與測(cè)試。
結(jié)果顯示,大多數(shù)頂尖模型的得分明顯低于3歲兒童平均水平。唯一表現(xiàn)較好的Gemini3-Pro-Preview模型也僅勉強(qiáng)超過(guò)3歲基線,與6歲兒童相比仍有約20個(gè)百分點(diǎn)的差距。

以BabyVision-Mini中的“垃圾分類”連線題為例,要求將“塑料杯”“廢報(bào)紙”“蘋果核”分別通過(guò)路徑連線到對(duì)應(yīng)顏色的垃圾桶,正確答案為A-藍(lán)、B-黃、C-綠。
三歲兒童僅憑本能就能從起點(diǎn)沿線追蹤至終點(diǎn),輕松完成作答;而表現(xiàn)最強(qiáng)的Gemini3-Pro-Preview雖寫下大段“逐段追蹤”的推理過(guò)程,最終仍給出A-綠、B-黃、C-藍(lán)的錯(cuò)誤答案。

隨后團(tuán)隊(duì)將測(cè)試擴(kuò)展到包含388道題目的全量BabyVision-Full評(píng)測(cè),此時(shí)人類對(duì)照組的16位本科以上背景參與者準(zhǔn)確率高達(dá)94.1%。
而大模型方面,在Mini測(cè)試中表現(xiàn)最佳的閉源模型Gemini3-Pro-Preview,在Full評(píng)測(cè)中的準(zhǔn)確率僅為49.7%;開(kāi)源模型中最強(qiáng)的Qwen3VL-235B-Thinking準(zhǔn)確率不足22.2%,其他開(kāi)源模型得分集中在12%-19%區(qū)間。
02
大模型視覺(jué)能力存在系統(tǒng)性缺失
UniPatAI的技術(shù)論文特別指出,這并非大模型單一維度的不足,而是在視覺(jué)能力的四大類別(精細(xì)辨別、視覺(jué)追蹤、空間感知及視覺(jué)模式識(shí)別)上的全方位落后,表明大模型的基礎(chǔ)視覺(jué)能力存在系統(tǒng)性缺失。

團(tuán)隊(duì)統(tǒng)計(jì)出模型面臨的四大典型挑戰(zhàn):
第一類挑戰(zhàn)源于“非語(yǔ)言細(xì)節(jié)”的缺失。人類處理拼圖補(bǔ)全等任務(wù)時(shí),能憑幾何直覺(jué)感知邊界對(duì)齊、微小凸起等像素級(jí)差異;而模型若將選項(xiàng)形狀描述為“像鉤子、有兩個(gè)腿”等語(yǔ)言概括,細(xì)微視覺(jué)差異會(huì)被抹平,選項(xiàng)在token空間中變得“幾乎一致”。


Gemini3-Pro-Preview在這道題中選擇了D,而非正確答案B。
第二類挑戰(zhàn)體現(xiàn)在軌跡追蹤任務(wù)中,如上文中的“垃圾分類”問(wèn)題。人類會(huì)鎖定一條線并一路追蹤至終點(diǎn),而模型會(huì)將路徑翻譯成“左/右/上/下”的離散步驟,難以保持連續(xù)性。因此,遇到交叉點(diǎn)時(shí)容易出現(xiàn)路徑分叉,從“跟隨一條線”退化為“猜測(cè)終點(diǎn)”。
第三類是空間想象能力缺失。在三維方塊計(jì)數(shù)、視角投影、遮擋結(jié)構(gòu)判斷等任務(wù)中,人類能在腦海中構(gòu)建三維結(jié)構(gòu)并變換視角判斷,這是空間想象能力的體現(xiàn);而模型依靠語(yǔ)言推理,但文字描述無(wú)法還原真實(shí)空間關(guān)系,最終導(dǎo)致漏掉隱藏塊、搞錯(cuò)投影關(guān)系。


Gemini3-Pro-Preview按高度用數(shù)字標(biāo)記方塊,但錯(cuò)誤忽略了右側(cè)豎列后排標(biāo)記為4的積木,最終計(jì)為前排平臺(tái)的2,得出錯(cuò)誤答案C。
最后一大挑戰(zhàn)是圖形規(guī)律歸納難題。此類題目要求從少量視覺(jué)示例中總結(jié)規(guī)則,人類會(huì)進(jìn)行關(guān)系映射以確定變化規(guī)律,而模型往往關(guān)注圖像的顏色、形狀等屬性,將“結(jié)構(gòu)規(guī)則”誤讀為“外觀統(tǒng)計(jì)”,導(dǎo)致遷移時(shí)出現(xiàn)規(guī)則幻覺(jué)。


阿里的Qwen3-VL-PLUS將圖形拆解成8等分后,成功判斷出棕色部分應(yīng)在頂部,卻看錯(cuò)了C選項(xiàng)。
研究團(tuán)隊(duì)認(rèn)為,大模型普遍得分超低的核心原因在于測(cè)試集中許多題目具有“不可言說(shuō)”的特性——無(wú)法在不損失信息的情況下被完整語(yǔ)言化。
人類只需通過(guò)指認(rèn)、圈選、沿路徑追蹤等直覺(jué)方式解題,但模型必須將視覺(jué)信息壓縮為token進(jìn)行語(yǔ)言化處理,這一過(guò)程會(huì)丟失大量關(guān)鍵細(xì)節(jié),最終導(dǎo)致推理失誤。
不過(guò)這并非無(wú)解。研究團(tuán)隊(duì)通過(guò)讓視覺(jué)推理“落地到視覺(jué)操作”,發(fā)現(xiàn)Sora2能一筆一劃繪制出左上角鱷魚的連線圖像。

美中不足的是,Sora2僅畫對(duì)了鱷魚這一條線,其他模型則一條線都未成功。但未來(lái)或許可通過(guò)讓模型進(jìn)行繪畫、臨摹等方式推理,彌補(bǔ)文字推理缺失的視覺(jué)能力。
因此該團(tuán)隊(duì)表示:“很難想象一個(gè)視覺(jué)能力低于3歲兒童的機(jī)器人,能在真實(shí)物理世界中可靠地幫助人類。”團(tuán)隊(duì)認(rèn)為,為推動(dòng)多模態(tài)智能發(fā)展,未來(lái)的模型必須從根本上重建視覺(jué)能力,而非依賴語(yǔ)言推理。
本文來(lái)自微信公眾號(hào)“觀網(wǎng)財(cái)經(jīng)”,作者:萬(wàn)肇生,編輯:張廣凱,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





