VLA模型π0.7展現(xiàn)自學(xué)與涌現(xiàn)能力,世界模型路徑面臨挑戰(zhàn)
本文來自微信公眾號(hào):42號(hào)電波,作者:蘭博,編輯:James
4月17日凌晨,美國具身智能企業(yè)Physical Intelligence(PI)發(fā)布新款VLA模型π0.7,在具身領(lǐng)域向行業(yè)證明了VLA的組合泛化能力。
在實(shí)際應(yīng)用中,該模型面對(duì)未接觸過的新任務(wù)時(shí),能借助已掌握的技能自主構(gòu)思解決方案。例如疊衣服任務(wù),盡管π0.7此前無相關(guān)數(shù)據(jù),卻能「涌現(xiàn)」出這項(xiàng)技能,通過組合已有技能來完成疊衣服的操作。
PI稱π0.7是「開箱即用的」VLA模型,無需針對(duì)具體任務(wù)微調(diào),就能完成折箱子、做咖啡、打開抽屜等操作。
它還具備跨本體能力,即便陌生本體缺乏相關(guān)任務(wù)數(shù)據(jù),搭載π0.7后的任務(wù)成功率,與擁有大量遙操經(jīng)驗(yàn)的人類首次執(zhí)行相同任務(wù)時(shí)的成功率相近。
實(shí)現(xiàn)這些能力的關(guān)鍵在于采用多樣化且詳細(xì)的Prompt,提升數(shù)據(jù)利用效率,這種數(shù)據(jù)處理方式在行業(yè)內(nèi)較為罕見。
PI研究員Ashwin Balakrishna表示:「過去我總能根據(jù)訓(xùn)練數(shù)據(jù)推測(cè)模型的能力范圍,這次卻無法預(yù)測(cè)了?!?/p>
當(dāng)前多數(shù)VLA模型仍局限于「見過才能做」,泛化能力高度依賴訓(xùn)練數(shù)據(jù)分布,而π0.7將VLA推向新高度,也讓世界模型的發(fā)展路徑感受到壓力。

通才模型達(dá)到專才水平
機(jī)器人領(lǐng)域一直致力于打造能執(zhí)行多任務(wù)的通用模型,但實(shí)際中多數(shù)任務(wù)需專項(xiàng)訓(xùn)練,遠(yuǎn)未達(dá)到通用標(biāo)準(zhǔn)。
π0.7的開箱即用特性展現(xiàn)出通才潛力。實(shí)驗(yàn)數(shù)據(jù)顯示,在做咖啡、疊衣服、裝箱等任務(wù)中,盡管π0.7未針對(duì)這些任務(wù)專門訓(xùn)練,其水平仍追平了經(jīng)微調(diào)的π0.6專家模型RL specialist和SFT specialist。
更值得關(guān)注的是,π0.7在疊衣服、裝箱任務(wù)中的效率更高。

目前多數(shù)「專家模型」通過以下方式構(gòu)建:
針對(duì)單一任務(wù)收集大量數(shù)據(jù);
進(jìn)行強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào);
將策略壓縮為高度特化的模型。
這類專家模型的能力源于對(duì)單一任務(wù)的深度擬合,而π0.7的路徑截然不同,它未針對(duì)特定任務(wù)額外訓(xùn)練,主要依賴已有能力的組合與復(fù)用。

以疊衣服任務(wù)為例,它并非直接學(xué)會(huì)疊衣服,而是調(diào)用抓取、展開、對(duì)齊、折疊等在其他任務(wù)中掌握的基礎(chǔ)能力,在執(zhí)行過程中動(dòng)態(tài)組合成新解決方案。
因此,π0.7能達(dá)到專才水平,是因?yàn)樗`活,懂得復(fù)用能力,不受固定策略限制,執(zhí)行中會(huì)不斷選擇更合適的動(dòng)作組合。
π0.7的核心在于一種新的能力獲取方式:用有限技能覆蓋無限任務(wù)。

組合泛化能力的實(shí)現(xiàn)機(jī)制
從技術(shù)博客可知,PI的數(shù)據(jù)處理方式是實(shí)現(xiàn)這些能力的關(guān)鍵。
傳統(tǒng)VLA對(duì)數(shù)據(jù)的組織接近「任務(wù)標(biāo)簽」,如倒水、抓取、開抽屜各為一類數(shù)據(jù),模型學(xué)習(xí)輸入到動(dòng)作的映射,往往僅掌握表象,難以理解本質(zhì)。
π0.7則轉(zhuǎn)向另一種結(jié)構(gòu),將任務(wù)拆分為可復(fù)用的「技能單元」,再通過語言組合。

這意味著模型內(nèi)部不再僅隱式擬合任務(wù),而是逐漸形成:
可復(fù)用的動(dòng)作基元(primitives)
對(duì)任務(wù)目標(biāo)的結(jié)構(gòu)化理解
基于語言的動(dòng)態(tài)組合能力
這也是它面對(duì)疊衣服這類陌生任務(wù)時(shí),能進(jìn)行抓取、展開、對(duì)齊、折疊等組合推理,而非盲目猜測(cè)的原因。
這一步的關(guān)鍵是讓任務(wù)表示從「樣本驅(qū)動(dòng)」轉(zhuǎn)向「結(jié)構(gòu)驅(qū)動(dòng)」,使機(jī)器人能力像大語言模型一樣逐漸具備「涌現(xiàn)」?jié)摿Α?/p>
通過工作人員的口述引導(dǎo),機(jī)器人能完成打開鍋蓋、放入食材、關(guān)閉機(jī)器等操作,即便訓(xùn)練數(shù)據(jù)中這類任務(wù)極少。
口述即可教會(huì)機(jī)器人新技能,若能廣泛應(yīng)用,數(shù)據(jù)采集成本將大幅降低。
Prompt成為可控執(zhí)行的引導(dǎo)機(jī)制
多數(shù)機(jī)器人系統(tǒng)中,Prompt僅為高層指令,實(shí)際行為由策略模型決定。
但在π0.7中,Prompt的角色發(fā)生轉(zhuǎn)變,承擔(dān)任務(wù)描述、執(zhí)行約束和中間指導(dǎo)功能,形式更多樣、詳細(xì):
任務(wù)拆解方式
操作順序提示
糾錯(cuò)信號(hào)
PI的做法是給數(shù)據(jù)添加多樣上下文,形成多模態(tài)Prompt,甚至包含任務(wù)完成后的預(yù)期畫面。

此時(shí),Prompt不再只是自然語言描述,而是與數(shù)據(jù)共同構(gòu)成更豐富的上下文,包括任務(wù)拆解、操作順序提示及潛在糾錯(cuò)信號(hào)。
這些信息在訓(xùn)練中被納入,使模型推理時(shí)能基于這些結(jié)構(gòu)決策。
PI團(tuán)隊(duì)強(qiáng)調(diào),使用更多樣、詳細(xì)的Prompt可顯著提升模型能力。
跨本體泛化實(shí)現(xiàn)軟件硬件解耦
作為專注軟件的具身企業(yè),PI希望像自動(dòng)駕駛軟件公司一樣,通過向機(jī)器人提供智能軟件盈利。
但機(jī)器人領(lǐng)域硬件種類繁多,軟件的跨本體泛化能力是PI必須解決的問題,這也是π0.7的核心能力之一。

具體任務(wù)中,π0.7在疊衣服時(shí),訓(xùn)練數(shù)據(jù)無UR5e機(jī)器人疊衣服的樣本,但其完成度達(dá)85.6%。
相比之下,10名平均有375小時(shí)遙操經(jīng)驗(yàn)的人類操作員完成度為90.9%,兩者成功率相近,而π0.7在數(shù)據(jù)方面并無優(yōu)勢(shì)。
這種跨本體泛化潛力,為PI軟件的大規(guī)模商業(yè)應(yīng)用增添了底氣。

寫在最后
總體而言,π0.7的核心在于模型能力獲取方式的轉(zhuǎn)變。
以往模型能力增長多依賴數(shù)據(jù)覆蓋,見過的任務(wù)才能完成,泛化能力高度受訓(xùn)練分布限制。
π0.7展示了另一條路徑:用有限技能覆蓋無限任務(wù)空間,使模型能力增長不再單純線性依賴數(shù)據(jù)規(guī)模,更注重:
技能的拆解與復(fù)用;
任務(wù)的結(jié)構(gòu)化理解;
通過語言的動(dòng)態(tài)組合能力。
當(dāng)這些條件滿足后,機(jī)器人能力開始「涌現(xiàn)」,這種能力從結(jié)構(gòu)與組合中自然「生長」。
因此,PI研究員難以通過訓(xùn)練數(shù)據(jù)預(yù)測(cè)模型能力邊界,因?yàn)槟芰碓床辉偻耆珜?duì)應(yīng)具體數(shù)據(jù),而是來自更高層次的組織方式。
有趣的是,在世界模型熱度高漲的當(dāng)下,π0.7的出現(xiàn)讓VLA路徑重新受到關(guān)注,世界模型的發(fā)展可能因此面臨挑戰(zhàn)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






