欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

多模態(tài)大模型視覺(jué)能力全面落后：多數(shù)表現(xiàn)不及3歲兒童

01-15 06:12

多模態(tài)大模型的視覺(jué)處理能力雖遠(yuǎn)不及語(yǔ)言推理能力亮眼，但一項(xiàng)最新測(cè)試結(jié)果仍令人咋舌。

多模態(tài)大模型的視覺(jué)處理能力雖遠(yuǎn)不及語(yǔ)言推理能力亮眼，但一項(xiàng)最新測(cè)試結(jié)果仍令人咋舌。

1月12日，紅杉中國(guó)xbench聯(lián)合UniPatAI團(tuán)隊(duì)發(fā)布全新多模態(tài)理解評(píng)測(cè)集BabyVision，旨在精準(zhǔn)評(píng)估大模型的核心視覺(jué)能力。

UniPatAI的技術(shù)論文顯示，首輪測(cè)試結(jié)果表明，當(dāng)前絕大多數(shù)頂尖多模態(tài)大模型的視覺(jué)任務(wù)表現(xiàn)顯著低于3歲兒童水平，僅有一款模型勉強(qiáng)達(dá)到3歲兒童的基線標(biāo)準(zhǔn)。

這種巨大的表現(xiàn)反差其實(shí)不難理解，主要是因?yàn)槿粘Ｖ心Ｐ蛷?qiáng)大的語(yǔ)言推理能力掩蓋了其視覺(jué)信息處理能力的短板。

通常，大模型面對(duì)圖像問(wèn)題時(shí)會(huì)用文字描述問(wèn)題。雖然視覺(jué)信息轉(zhuǎn)文字存在局限性，但模型能憑借強(qiáng)大的語(yǔ)言推理能力理解并解決視覺(jué)問(wèn)題。不過(guò)需要注意的是，這并非真正的視覺(jué)能力，而是基于文字信息的推理能力。因此，一旦失去語(yǔ)言能力的支撐，大模型在視覺(jué)信息處理中的短板就會(huì)完全暴露。

01

多數(shù)測(cè)試模型視覺(jué)能力不及3歲兒童

基于此，UniPatAI團(tuán)隊(duì)為首輪測(cè)試用的BabyVision-Mini設(shè)計(jì)了20道視覺(jué)中心任務(wù)，嚴(yán)格控制語(yǔ)言依賴，所有題目答案均需完全依靠視覺(jué)信息得出。同時(shí)，團(tuán)隊(duì)還組織了3歲、6歲、10歲、12歲四個(gè)年齡段的兒童作為對(duì)照組參與測(cè)試。

結(jié)果顯示，大多數(shù)頂尖模型的得分明顯低于3歲兒童平均水平。唯一表現(xiàn)較好的Gemini3-Pro-Preview模型也僅勉強(qiáng)超過(guò)3歲基線，與6歲兒童相比仍有約20個(gè)百分點(diǎn)的差距。

以BabyVision-Mini中的“垃圾分類”連線題為例，要求將“塑料杯”“廢報(bào)紙”“蘋果核”分別通過(guò)路徑連線到對(duì)應(yīng)顏色的垃圾桶，正確答案為A-藍(lán)、B-黃、C-綠。

三歲兒童僅憑本能就能從起點(diǎn)沿線追蹤至終點(diǎn)，輕松完成作答；而表現(xiàn)最強(qiáng)的Gemini3-Pro-Preview雖寫下大段“逐段追蹤”的推理過(guò)程，最終仍給出A-綠、B-黃、C-藍(lán)的錯(cuò)誤答案。

隨后團(tuán)隊(duì)將測(cè)試擴(kuò)展到包含388道題目的全量BabyVision-Full評(píng)測(cè)，此時(shí)人類對(duì)照組的16位本科以上背景參與者準(zhǔn)確率高達(dá)94.1%。

而大模型方面，在Mini測(cè)試中表現(xiàn)最佳的閉源模型Gemini3-Pro-Preview，在Full評(píng)測(cè)中的準(zhǔn)確率僅為49.7%；開(kāi)源模型中最強(qiáng)的Qwen3VL-235B-Thinking準(zhǔn)確率不足22.2%，其他開(kāi)源模型得分集中在12%-19%區(qū)間。

02

大模型視覺(jué)能力存在系統(tǒng)性缺失

UniPatAI的技術(shù)論文特別指出，這并非大模型單一維度的不足，而是在視覺(jué)能力的四大類別（精細(xì)辨別、視覺(jué)追蹤、空間感知及視覺(jué)模式識(shí)別）上的全方位落后，表明大模型的基礎(chǔ)視覺(jué)能力存在系統(tǒng)性缺失。

團(tuán)隊(duì)統(tǒng)計(jì)出模型面臨的四大典型挑戰(zhàn)：

第一類挑戰(zhàn)源于“非語(yǔ)言細(xì)節(jié)”的缺失。人類處理拼圖補(bǔ)全等任務(wù)時(shí)，能憑幾何直覺(jué)感知邊界對(duì)齊、微小凸起等像素級(jí)差異；而模型若將選項(xiàng)形狀描述為“像鉤子、有兩個(gè)腿”等語(yǔ)言概括，細(xì)微視覺(jué)差異會(huì)被抹平，選項(xiàng)在token空間中變得“幾乎一致”。

Gemini3-Pro-Preview在這道題中選擇了D，而非正確答案B。

第二類挑戰(zhàn)體現(xiàn)在軌跡追蹤任務(wù)中，如上文中的“垃圾分類”問(wèn)題。人類會(huì)鎖定一條線并一路追蹤至終點(diǎn)，而模型會(huì)將路徑翻譯成“左/右/上/下”的離散步驟，難以保持連續(xù)性。因此，遇到交叉點(diǎn)時(shí)容易出現(xiàn)路徑分叉，從“跟隨一條線”退化為“猜測(cè)終點(diǎn)”。

第三類是空間想象能力缺失。在三維方塊計(jì)數(shù)、視角投影、遮擋結(jié)構(gòu)判斷等任務(wù)中，人類能在腦海中構(gòu)建三維結(jié)構(gòu)并變換視角判斷，這是空間想象能力的體現(xiàn)；而模型依靠語(yǔ)言推理，但文字描述無(wú)法還原真實(shí)空間關(guān)系，最終導(dǎo)致漏掉隱藏塊、搞錯(cuò)投影關(guān)系。

Gemini3-Pro-Preview按高度用數(shù)字標(biāo)記方塊，但錯(cuò)誤忽略了右側(cè)豎列后排標(biāo)記為4的積木，最終計(jì)為前排平臺(tái)的2，得出錯(cuò)誤答案C。

最后一大挑戰(zhàn)是圖形規(guī)律歸納難題。此類題目要求從少量視覺(jué)示例中總結(jié)規(guī)則，人類會(huì)進(jìn)行關(guān)系映射以確定變化規(guī)律，而模型往往關(guān)注圖像的顏色、形狀等屬性，將“結(jié)構(gòu)規(guī)則”誤讀為“外觀統(tǒng)計(jì)”，導(dǎo)致遷移時(shí)出現(xiàn)規(guī)則幻覺(jué)。

阿里的Qwen3-VL-PLUS將圖形拆解成8等分后，成功判斷出棕色部分應(yīng)在頂部，卻看錯(cuò)了C選項(xiàng)。

研究團(tuán)隊(duì)認(rèn)為，大模型普遍得分超低的核心原因在于測(cè)試集中許多題目具有“不可言說(shuō)”的特性——無(wú)法在不損失信息的情況下被完整語(yǔ)言化。

人類只需通過(guò)指認(rèn)、圈選、沿路徑追蹤等直覺(jué)方式解題，但模型必須將視覺(jué)信息壓縮為token進(jìn)行語(yǔ)言化處理，這一過(guò)程會(huì)丟失大量關(guān)鍵細(xì)節(jié)，最終導(dǎo)致推理失誤。

不過(guò)這并非無(wú)解。研究團(tuán)隊(duì)通過(guò)讓視覺(jué)推理“落地到視覺(jué)操作”，發(fā)現(xiàn)Sora2能一筆一劃繪制出左上角鱷魚的連線圖像。

美中不足的是，Sora2僅畫對(duì)了鱷魚這一條線，其他模型則一條線都未成功。但未來(lái)或許可通過(guò)讓模型進(jìn)行繪畫、臨摹等方式推理，彌補(bǔ)文字推理缺失的視覺(jué)能力。

因此該團(tuán)隊(duì)表示：“很難想象一個(gè)視覺(jué)能力低于3歲兒童的機(jī)器人，能在真實(shí)物理世界中可靠地幫助人類。”團(tuán)隊(duì)認(rèn)為，為推動(dòng)多模態(tài)智能發(fā)展，未來(lái)的模型必須從根本上重建視覺(jué)能力，而非依賴語(yǔ)言推理。

本文來(lái)自微信公眾號(hào)“觀網(wǎng)財(cái)經(jīng)”，作者：萬(wàn)肇生，編輯：張廣凱，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

執(zhí)行攻堅(jiān)不停歇司法為民踐初心

當(dāng)陽(yáng)市中小學(xué)幼兒園寒假時(shí)間正式公布！

別再選錯(cuò)鍛煉時(shí)段！天剛亮和臨睡前都不是最佳運(yùn)動(dòng)時(shí)間

給大樹(shù)“理發(fā)”，解決居民“心頭事”

云端連邊防民樂(lè)學(xué)校這場(chǎng)升旗儀式不一般

項(xiàng)目推薦