欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Meta華人團隊打造新模型Muse Spark:從一張截圖復(fù)刻豆包App看AI新突破

04-10 06:39
Meta超級智能實驗室(MSL)交出首份答卷,其打造的原生多模態(tài)推理模型Muse Spark(內(nèi)部代號牛油果)正式亮相。

Meta的“牛油果”模型,終于迎來成熟時刻!


智東西4月9日消息,成立9個月的Meta超級智能實驗室(MSL)發(fā)布首款模型——Muse Spark(內(nèi)部代號牛油果)。這是一款支持工具使用、視覺思維鏈與多智能體編排的原生多模態(tài)推理模型。


在大模型測評平臺Artificial Analysis上,Muse Spark的智能指數(shù)從Llama 4 Maverick的18分躍升至52分,介于Claude Sonnet 4.6與Claude Opus 4.6之間,成功躋身行業(yè)第一梯隊。



我們第一時間體驗該模型,上傳豆包App截圖并要求復(fù)刻??梢钥吹?,Muse Spark的回復(fù)風(fēng)格偏口語化,甚至帶有“豆包味兒”,這或許與其面向C端用戶的定位有關(guān)。



Muse Spark生成速度快、效果出色,基本實現(xiàn)了豆包頁面的1:1復(fù)刻,連圖像細節(jié)都精準還原。



Muse Spark還通過了小球彈跳測試。有網(wǎng)友感慨,時隔1年多,Meta終于推出了能通過六邊形小球彈跳測試的大模型,這一時刻值得記錄。



Muse Spark是ScaleAI創(chuàng)始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10個月后交出的首份答卷。



這一成果來之不易。此前Llama 4遭遇重大挫折后,Meta對AI團隊進行了大刀闊斧的重組,唱衰大語言模型的楊立昆最終離開。


汪滔表示,Meta在過去9個月從零搭建全新AI技術(shù)棧,基礎(chǔ)設(shè)施、架構(gòu)、數(shù)據(jù)管線均為全新打造,Muse Spark正是這些努力的結(jié)晶。


不少加入Meta的華人AI專家紛紛轉(zhuǎn)發(fā)這一成果,包括趙晟佳、畢樹超、余家輝、Jason Wei等。值得注意的是,MSL團隊華人占比很高,從領(lǐng)導(dǎo)到基層員工,許多都是華人面孔。



據(jù)Top華人科創(chuàng)社報道,Meta還迎來了新的華人大?!拔浵伡瘓FRL實驗室首席科學(xué)家吳翼加盟Meta MSL,直接向Meta副總裁、MSL聯(lián)合負責(zé)人Nat Friedman匯報。



Muse Spark是MSL Muse系列的首款模型,未來還將發(fā)布更多同系列產(chǎn)品。目前該模型已逐步推送至Meta旗下應(yīng)用及Meta.ai網(wǎng)頁端,但仍有用戶反映使用的仍是Llama 3。



值得注意的是,相關(guān)博客中未提及“開源”二字。


體驗鏈接:meta.ai



01.多模態(tài)與醫(yī)療健康表現(xiàn)亮眼,智能體及編程工作流待提升


從基準測試結(jié)果看,Muse Spark在多模態(tài)感知、推理、醫(yī)療健康及智能體等領(lǐng)域表現(xiàn)處于行業(yè)第一梯隊。不過MSL也承認,該模型在長程智能體系統(tǒng)和編程工作流方面仍有提升空間。


以下是Muse Spark的完整基準測試成績。需注意的是,Meta采用的部分數(shù)據(jù)呈現(xiàn)方式存在“圖表誤導(dǎo)”嫌疑:乍看之下Muse Spark所有成績均標藍,似乎全面領(lǐng)先,但實際上在圖中20項基準測試里,僅4項拿到SOTA( state-of-the-art,最先進)。



在多模態(tài)能力維度,Muse Spark競爭力較強,在美國大模型領(lǐng)域未被拉開明顯代差,基本與GPT-5.4處于同一水平,符合其原生多模態(tài)大模型的定位。


作為將部署于Meta旗下眾多社交媒體、面向廣大個人用戶的模型,Muse Spark在用戶高度關(guān)注的醫(yī)療健康領(lǐng)域表現(xiàn)不俗,在HealthBench Hard與MedXpertQA(多模態(tài))兩項評測中均斬獲SOTA,顯然經(jīng)過重點優(yōu)化。


Muse Spark此次還推出了“沉思模式(Contemplating mode)”,可協(xié)調(diào)多個智能體并行推理,使其能與Gemini Deep Think、GPT Pro等前沿模型的極限推理模式相媲美。


開啟“沉思模式”后,Muse Spark在復(fù)雜任務(wù)中的能力顯著提升,例如在HLE“人類最后的考試”基準測試中正確率達58%,在“前沿科學(xué)研究”基準測試中正確率為38%。



02.算力需求較Llama 4降一個量級,采用新型強化學(xué)習(xí)技術(shù)


除跑分外,該模型的新定位及背后技術(shù)也值得關(guān)注。


Meta表示,Muse Spark是邁向個人超級智能的第一步,能理解用戶所處世界,多模態(tài)能力與醫(yī)療健康是當(dāng)前兩大重點方向。


Muse Spark從底層架構(gòu)整合了跨領(lǐng)域和工具的視覺信息,在識別、定位方面能力突出,結(jié)合這些功能可實現(xiàn)多種交互式體驗。


例如,用戶上傳游戲畫面截圖后,可讓Muse Spark將其轉(zhuǎn)化為可互動的游戲。



或是告知Muse Spark自己有高膽固醇問題,讓其基于多模態(tài)能力和醫(yī)療知識制作動態(tài)食物推薦頁面。



Meta博客分享的demo僅涉及多模態(tài)和醫(yī)療健康領(lǐng)域,這或許意味著Muse系列模型最終將服務(wù)于扎克伯格的個人超級智能愿景,而非單純追求智能上限。


技術(shù)層面,MSL大幅提升了算力利用率:與此前的Llama 4 Maverick相比,Muse Spark用少一個數(shù)量級以上的計算資源就能達到相同性能。



同時,MSL在強化學(xué)習(xí)階段采用了新技術(shù)棧,實現(xiàn)了大規(guī)模強化學(xué)習(xí)中平穩(wěn)、可預(yù)測的性能提升。



03.實測:精準識別食物熱量,為Meta AI眼鏡設(shè)計新品


Muse Spark發(fā)布后,我們進行了更多實測。


其多模態(tài)能力表現(xiàn)出色:上傳啤酒瓶照片后,Muse Spark準確識別出品牌、容量,甚至原圖中肉眼難辨的酒精度。



熱量分析來自搜索,還將熱量換算成日常食物,并給出消耗對應(yīng)熱量所需的運動量,實用性較強。



我們讓Muse Spark為Meta AI眼鏡設(shè)計宣傳網(wǎng)頁(未提供參考)。過程中,它主動調(diào)用AI生圖模型生成產(chǎn)品圖片,再編寫完整頁面代碼,耗時約2分鐘,效果如下:



該網(wǎng)頁完成度高,直接設(shè)計出搭載Muse Spark的Meta AI眼鏡新品。模型還自評稱,這是旗艦級官網(wǎng),按Apple Vision Pro發(fā)布會標準制作,而非普通落地頁。


Muse Spark還可用于購物推薦:我們讓它搜索汽車雨刮器,幾秒內(nèi)就給出多個選項,包含每款產(chǎn)品的優(yōu)劣勢分析及最終購買建議。



04.結(jié)語:“牛油果”成熟,但個人超級智能仍需時間


作為Meta超級智能實驗室的首秀,Muse Spark已展現(xiàn)出第一梯隊的水準,讓人對Muse系列后續(xù)產(chǎn)品充滿期待。


不過,扎克伯格所期待的“個人超級智能”,目前仍停留在醫(yī)療健康問答、網(wǎng)頁復(fù)刻、購物推薦等相對可控的場景。要真正改變數(shù)億用戶的交互方式,還有很長的路要走。


本文來自微信公眾號“智東西”(ID:zhidxcom),作者:陳駿達,編輯:云鵬,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com