LeCun團隊新成果:單GPU可運行的世界模型LeWorldModel,規(guī)劃速度快至1秒
LeWorldModel能夠僅通過像素畫面,無需復(fù)雜技巧,在單GPU上穩(wěn)定訓(xùn)練,學(xué)會預(yù)測“執(zhí)行某個動作后世界會發(fā)生怎樣的變化”,可應(yīng)用于機器人、智能體的規(guī)劃與控制任務(wù),兼具快速、穩(wěn)定、實用的特點。


實際應(yīng)用效果十分出色:
速度優(yōu)勢顯著:規(guī)劃速度較其他大模型方案快48倍,1秒內(nèi)即可完成規(guī)劃。
參數(shù)規(guī)模小巧:僅含1500萬參數(shù),所有訓(xùn)練與規(guī)劃實驗均在單張NVIDIA L40S顯卡上完成,訓(xùn)練時長僅需幾小時。
控制能力強勁:在推箱子、機械臂操作、導(dǎo)航等2D/3D任務(wù)中,性能超過以往的端到端方法,與大模型方案不相上下。
具備物理認知:其潛在特征中包含位置、角度等物理信息,還能識別“不符合物理規(guī)律”的現(xiàn)象,如物體突然瞬移時,模型會表現(xiàn)出“意外”反應(yīng)。
技術(shù)架構(gòu):JEPA的極簡核心提煉
團隊介紹,以往的JEPA方法常通過啟發(fā)式手段或技巧(如EMA、停止梯度法、預(yù)訓(xùn)練表示、掩碼或復(fù)雜損失函數(shù))來避免模型崩潰,但這些技巧導(dǎo)致JEPA訓(xùn)練不穩(wěn)定且難度較大。

而LeWM的設(shè)計思路是將JEPA簡化至核心本質(zhì):利用編碼器將圖片轉(zhuǎn)換為特征,通過預(yù)測器根據(jù)動作預(yù)測下一個特征,再借助高斯正則化防止模型坍塌,全程采用端到端方式,實現(xiàn)極簡且穩(wěn)定的訓(xùn)練。
其架構(gòu)僅包含兩個核心組件——編碼器+預(yù)測器:
編碼器:將畫面壓縮為一串特征向量(latent特征)。
預(yù)測器:依據(jù)當前特征與待執(zhí)行動作,預(yù)測下一時刻的特征。
最關(guān)鍵的創(chuàng)新點在于僅使用兩種損失函數(shù):
預(yù)測損失:采用簡單的MSE均方誤差,使預(yù)測器盡可能準確地預(yù)測下一幀的真實特征,幫助模型學(xué)習(xí)世界的動態(tài)規(guī)律。
SIGReg正則損失:強制所有特征向量服從標準高斯分布,防止模型出現(xiàn)“擺爛坍塌”(即所有畫面輸出相同特征)的情況。
最終總損失為預(yù)測損失加上λ乘以SIGReg正則損失。

正則化權(quán)重λ是唯一需要調(diào)優(yōu)的超參數(shù),極大簡化了訓(xùn)練流程,無需以往的額外方法,這也是LeWM穩(wěn)定且實用的根本原因。
實驗結(jié)果:性能超越此前JEPA方法
結(jié)論先行:LeWM顯著優(yōu)于之前的端到端JEPA方法(PLDM),與依賴大模型預(yù)訓(xùn)練的DINO?WM性能相當甚至更優(yōu),同時具備訓(xùn)練更簡單、速度更快、參數(shù)更小的優(yōu)勢。
團隊在4個經(jīng)典機器人/控制任務(wù)上進行測試,并與DINO-WM和PLDM這兩種基于JEPA的先進方法對比。這4個任務(wù)分別是Push-T(推箱子)、Reacher(機械臂夠取目標)、OGBench-Cube(3D機械臂抓取方塊)、Two-Room(2D導(dǎo)航)。

測試結(jié)果如下:
Push-T(推箱子):LeWM表現(xiàn)最佳,成功率達96%,比PLDM高18%,甚至超過帶有體感輸入的DINO-WM;
Reacher(機械臂夠取目標):LeWM性能優(yōu)于PLDM,與DINO-WM接近;
OGBench-Cube(3D機械臂抓取方塊):LeWM略遜于DINO-WM,但仍保持較強性能;
Two-Room(2D導(dǎo)航):LeWM性能稍弱,但對物理信息的學(xué)習(xí)效果依然良好。

在2D和3D任務(wù)中,LeWM縮小了與基于基礎(chǔ)模型的世界模型(如DINO-WM)之間的差距,同時優(yōu)于端到端基線PLDM。
值得注意的是,LeWM的規(guī)劃速度比DINO-WM快48倍:前者不到1秒,后者約需47秒。
原因在于LeWM能將觀測數(shù)據(jù)壓縮約200倍,使AI在預(yù)測未來時計算更高效,讓基于特征的世界規(guī)劃幾乎可實時運行。

此外,LeWM真正具備物理認知能力。
模型將畫面轉(zhuǎn)換為特征向量(latent)后,團隊在訓(xùn)練好的LeWM后接入一個簡單探測器,使其僅依靠latent向量預(yù)測機器人/方塊的位置、方塊角度、機械臂指尖坐標。
結(jié)果顯示,位置預(yù)測幾乎100%準確,角度預(yù)測也非常精準,性能遠超PLDM,與大模型DINO-WM相當。

為直觀展示LeWM的學(xué)習(xí)效果,團隊額外訓(xùn)練了一個可視化用的小解碼器,呈現(xiàn)三類畫面:真實視頻、模型“還原”的視頻、模型預(yù)測的未來視頻。

可見,LeWM不僅能準確理解當前場景,還能正確預(yù)測物體后續(xù)運動,真正掌握了環(huán)境的核心結(jié)構(gòu)與變化規(guī)律。
不僅如此,它還能識別“違反物理規(guī)律”的異常情況。
團隊設(shè)計了兩種“擾動場景”實驗,觀察模型反應(yīng):
視覺擾動:物體突然變色;
物理擾動:物體直接瞬移至隨機位置,違背物理定律。
模型對“變色”反應(yīng)平淡,而面對“物理違規(guī)”時,“驚訝值”顯著上升。

團隊背景
第一作者Lucas Maes是加拿大AI研究院Mila的三年級博士生,導(dǎo)師為Damien Scieur,目前在布朗大學(xué)擔(dān)任訪問研究員,與Randall Balestriero合作研究世界模型。

其研究重點是通過梯度規(guī)劃、分層時間抽象、目標規(guī)范和物理理解等方法改進JEPA。
Quentin Le Lidec是紐約大學(xué)柯朗數(shù)學(xué)研究所的博士后研究員,與Yann LeCun合作研究機器人世界模型,研究方向為利用人工智能解決物理世界問題,曾為Pinocchio、Simple和stable-worldmodel等開源項目貢獻力量。

Damien Scieur現(xiàn)任三星研究員,曾任普林斯頓大學(xué)博士后,主要研究方向為優(yōu)化算法。

Randall Balestriero是布朗大學(xué)計算機科學(xué)助理教授,長期深耕人工智能與深度學(xué)習(xí)領(lǐng)域。

他自2013年起研究可學(xué)習(xí)信號處理,相關(guān)技術(shù)曾應(yīng)用于NASA火星車的火星地震探測;2021年獲萊斯大學(xué)博士學(xué)位,后進入Meta AI擔(dān)任博士后,師從Yann LeCun。
本文來自微信公眾號“量子位”,作者:關(guān)注前沿科技,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



