欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

低調(diào)突圍的豆包2.0:悄然登頂國內(nèi)模型榜首

4分鐘前

本文來自微信公眾號: AGENT橘 ,作者:AGENT橘



Seedance 2.0的光芒過于奪目,吸引了所有關(guān)注,使得Doubao-Seed-2.0顯得有些默默無聞。不過春節(jié)期間,我在豆包的專家模式中使用它時,收獲了不少意外驚喜。



從字節(jié)官方發(fā)布的79頁Model Card來看,Doubao-Seed-2.0十分注重真實(shí)世界任務(wù)的解決,還嚴(yán)謹(jǐn)?shù)刂赋鲎陨碓诰幋a和世界知識方面不及競品Claude與Gemini。





以下內(nèi)容譯自官方Model Card:



需要注意的是,Doubao-Seed-2.0系列與國際前沿大語言模型(LLMs)仍存在差距...



Doubao-Seed-2.0系列在編碼方面與Claude相比有相當(dāng)大的差距(considerable gaps),以SWE-Evo和NL2Repo為例。



Doubao-Seed-2.0系列在與用戶體驗(yàn)密切相關(guān)的長尾知識方面與Gemini相比存在相對明顯的差距(relatively obvious gaps),以SuperGPQA和SimpleQA-Verified為例。



然而春節(jié)過后,情況出現(xiàn)了一些小反轉(zhuǎn),年前幾款國產(chǎn)新模型的競技場排名也都公布了。(競技場LMAreana是全球模型接受用戶公開盲測的平臺,反映實(shí)際用戶體驗(yàn))



排名最高的竟然是Doubao-Seed-2.0。



Doubao-Seed-2.0不僅拿下國內(nèi)綜合第一,還在全球總榜沖進(jìn)了前10。其他幾款新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,緊隨其后排在16、17、18、19名。



特別值得一提的是,Doubao-Seed-2.0的視覺能力僅次于Gemini的三個版本,排名全球第4。考慮到它的輸入成本比Gemini低約5倍,這個模型在多模態(tài)理解方面是個降本增效的利器。





原生多模態(tài)



這份競技場排名很有意思,Doubao-Seed-2.0和Gemini3一樣是原生多模態(tài)模型,意味著它對圖片、視頻、音頻的理解應(yīng)該十分出色。我在豆包的專家模式里測試了它的圖片識別能力。



這個模型的圖片推理能力強(qiáng)得有些驚人…



我給模型一張自己拍攝的小眾景點(diǎn)照片,網(wǎng)上從未發(fā)布過,讓它猜測地點(diǎn)。



我詢問了Gemini的思考模式,它猜錯了,提示錯誤后第二次還是錯了,而且只會按圖上的文字搜索來猜測。



我又嘗試了豆包新出的專家模式,它第一次也錯了,我提示錯誤后,它突然進(jìn)入“狂暴模式”,思考了約幾分鐘,思維鏈條長達(dá)上千字,分析城市地理、景點(diǎn)街道方向、建筑特征,還調(diào)用搜圖工具對比…最終成功答對。



我問它如何猜測的,它列出三個嚴(yán)絲合縫的步驟,這是它的復(fù)盤過程,有理有據(jù),沒有用大眾點(diǎn)評等數(shù)據(jù)庫搜店鋪名作弊,而是通過原生視覺推理:



復(fù)盤:



第一步:鎖定100%正確的大前提——地域絕對是云南大理



核心鐵證是圖中摩托車車牌,清晰顯示“云L”開頭。



第二步:推翻最初“大理古城”的結(jié)論



1. 地形不符:大理古城建在平壩上,是棋盤式方正街巷,幾乎沒有長距離、大坡度的連續(xù)上坡路。



2. 業(yè)態(tài)和建筑不符:大理古城主街是純旅游商業(yè)化的規(guī)整商鋪,幾乎沒有原生居民樓。



3. 地標(biāo)位置不符:大理古城的城門都建在平地上,不會出現(xiàn)在坡道頂端高處。



第三步:排除大理古城后,在大理范圍內(nèi)尋找同時滿足這些條件的地方:有千年歷史的古街巷+帶老城門樓、整條主街依山而建的長上坡青石板路、至今保留原生煙火氣而非純商業(yè)化景區(qū)。



答案只有一個:龍尾關(guān)。



除了照片理解,我還測試了圖表理解,將一張過去十年的黃金走勢圖讓模型還原成Excel表格。





根據(jù)表格作圖簡單,但根據(jù)圖表倒推表格,視覺能力弱是做不到的。



它成功畫出了十年黃金走勢表。



但它很快發(fā)現(xiàn)一個問題:



該圖表的價格數(shù)值與現(xiàn)實(shí)中倫敦金/COMEX黃金(美元/盎司)的歷史真實(shí)價格存在顯著差異,為圖表本身設(shè)定,本次制表未做數(shù)值修正。



若需要2016-2025年國際黃金真實(shí)歷史價格的Excel表,可立刻補(bǔ)充提供。



這個表格是根據(jù)視覺整理的,數(shù)值存在模糊性,它猜測我的意圖是要準(zhǔn)確表格。



于是它調(diào)用網(wǎng)絡(luò)搜索,從權(quán)威數(shù)據(jù)中獲取了準(zhǔn)確表格。



為方便觀看,我讓它直接繪制成HTML圖表展現(xiàn)。





這個表格的繪制有兩點(diǎn)超出預(yù)期:一是互動設(shè)計,鼠標(biāo)劃過可顯示當(dāng)年精準(zhǔn)數(shù)據(jù);二是蠟燭圖繪制,清晰展現(xiàn)當(dāng)年波動范圍,正是我需要的。



可見模型在Coding+視覺方面的能力非常強(qiáng)悍。



測試完圖像理解后,我又測試了視頻理解,不過這個題難度可能超綱了…



這位歌手的演唱太過炸裂,模型識別不出她唱的歌曲。(如果你知道,歡迎留言告訴我...)



驅(qū)動龍蝦Agent



測試完基礎(chǔ)模型能力后,我特別好奇Doubao-Seed-2.0在OpenClaw??這樣的Agent中的表現(xiàn)。



我在火山開了龍蝦服務(wù)器+Coding Plan,總共花了20塊錢,就讓??在飛書里運(yùn)行起來了。



我先讓它安裝了常用的ListenHub Skill,用于給文稿配音,一次就成功了。





我又讓它安裝了BrowserWing,這樣它就能操作瀏覽器,替我上網(wǎng)沖浪了(這個插件非常好,推薦大家使用https://github.com/browserwing/browserwing)





這樣我的??就可以瀏覽任何網(wǎng)頁,制作日報或播客。



看來用Doubao-Seed-2.0驅(qū)動Agent是完全可行的。



體感總結(jié)



一番體驗(yàn)下來,我對Doubao-Seed-2.0的印象可用四個字概括:低調(diào)務(wù)實(shí)。



它沒有像Seedance 2.0那樣掀起巨浪,卻悄悄在競技場沖到全球前十。



A廠前幾天還提出“蒸餾攻擊”的說法,稱中國模型只能靠蒸餾。豆包作為不能蒸餾的模型沖到全球綜合前10、視覺能力第4,無疑是對這種說法的有力反駁。



當(dāng)然它也不完美:視頻理解遇到復(fù)雜場景會翻車,世界知識的長尾覆蓋確實(shí)不如Gemini,專業(yè)編碼方面距離Claude也有很大進(jìn)步空間,這些字節(jié)在Model Card中已坦誠指出。



但對于大部分真實(shí)工作場景,如圖表查看、文檔分析、代碼編寫、Agent驅(qū)動等,Doubao-Seed-2.0已經(jīng)足夠好用。



而且火山方舟9.9元的Coding plan,不僅支持豆包,還支持Kimi和GLM等優(yōu)秀開源模型,非常實(shí)惠。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com