欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<fieldset id="uyaay"><tbody id="uyaay"></tbody></fieldset>

<option id="uyaay"></option>

<fieldset id="uyaay"></fieldset>

VLA模型π0.7展現(xiàn)自學(xué)與涌現(xiàn)能力，世界模型路徑面臨挑戰(zhàn)

3分鐘前

本文來自微信公眾號(hào)：42號(hào)電波，作者：蘭博，編輯：James

4月17日凌晨，美國具身智能企業(yè)Physical Intelligence（PI）發(fā)布新款VLA模型π0.7，在具身領(lǐng)域向行業(yè)證明了VLA的組合泛化能力。

在實(shí)際應(yīng)用中，該模型面對(duì)未接觸過的新任務(wù)時(shí)，能借助已掌握的技能自主構(gòu)思解決方案。例如疊衣服任務(wù)，盡管π0.7此前無相關(guān)數(shù)據(jù)，卻能「涌現(xiàn)」出這項(xiàng)技能，通過組合已有技能來完成疊衣服的操作。

PI稱π0.7是「開箱即用的」VLA模型，無需針對(duì)具體任務(wù)微調(diào)，就能完成折箱子、做咖啡、打開抽屜等操作。

它還具備跨本體能力，即便陌生本體缺乏相關(guān)任務(wù)數(shù)據(jù)，搭載π0.7后的任務(wù)成功率，與擁有大量遙操經(jīng)驗(yàn)的人類首次執(zhí)行相同任務(wù)時(shí)的成功率相近。

實(shí)現(xiàn)這些能力的關(guān)鍵在于采用多樣化且詳細(xì)的Prompt，提升數(shù)據(jù)利用效率，這種數(shù)據(jù)處理方式在行業(yè)內(nèi)較為罕見。

PI研究員Ashwin Balakrishna表示：「過去我總能根據(jù)訓(xùn)練數(shù)據(jù)推測(cè)模型的能力范圍，這次卻無法預(yù)測(cè)了?！?/p>

當(dāng)前多數(shù)VLA模型仍局限于「見過才能做」，泛化能力高度依賴訓(xùn)練數(shù)據(jù)分布，而π0.7將VLA推向新高度，也讓世界模型的發(fā)展路徑感受到壓力。

通才模型達(dá)到專才水平

機(jī)器人領(lǐng)域一直致力于打造能執(zhí)行多任務(wù)的通用模型，但實(shí)際中多數(shù)任務(wù)需專項(xiàng)訓(xùn)練，遠(yuǎn)未達(dá)到通用標(biāo)準(zhǔn)。

π0.7的開箱即用特性展現(xiàn)出通才潛力。實(shí)驗(yàn)數(shù)據(jù)顯示，在做咖啡、疊衣服、裝箱等任務(wù)中，盡管π0.7未針對(duì)這些任務(wù)專門訓(xùn)練，其水平仍追平了經(jīng)微調(diào)的π0.6專家模型RL specialist和SFT specialist。

更值得關(guān)注的是，π0.7在疊衣服、裝箱任務(wù)中的效率更高。

目前多數(shù)「專家模型」通過以下方式構(gòu)建：

針對(duì)單一任務(wù)收集大量數(shù)據(jù)；

進(jìn)行強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)；

將策略壓縮為高度特化的模型。

這類專家模型的能力源于對(duì)單一任務(wù)的深度擬合，而π0.7的路徑截然不同，它未針對(duì)特定任務(wù)額外訓(xùn)練，主要依賴已有能力的組合與復(fù)用。

以疊衣服任務(wù)為例，它并非直接學(xué)會(huì)疊衣服，而是調(diào)用抓取、展開、對(duì)齊、折疊等在其他任務(wù)中掌握的基礎(chǔ)能力，在執(zhí)行過程中動(dòng)態(tài)組合成新解決方案。

因此，π0.7能達(dá)到專才水平，是因?yàn)樗`活，懂得復(fù)用能力，不受固定策略限制，執(zhí)行中會(huì)不斷選擇更合適的動(dòng)作組合。

π0.7的核心在于一種新的能力獲取方式：用有限技能覆蓋無限任務(wù)。

組合泛化能力的實(shí)現(xiàn)機(jī)制

從技術(shù)博客可知，PI的數(shù)據(jù)處理方式是實(shí)現(xiàn)這些能力的關(guān)鍵。

傳統(tǒng)VLA對(duì)數(shù)據(jù)的組織接近「任務(wù)標(biāo)簽」，如倒水、抓取、開抽屜各為一類數(shù)據(jù)，模型學(xué)習(xí)輸入到動(dòng)作的映射，往往僅掌握表象，難以理解本質(zhì)。

π0.7則轉(zhuǎn)向另一種結(jié)構(gòu)，將任務(wù)拆分為可復(fù)用的「技能單元」，再通過語言組合。

這意味著模型內(nèi)部不再僅隱式擬合任務(wù)，而是逐漸形成：

可復(fù)用的動(dòng)作基元（primitives）

對(duì)任務(wù)目標(biāo)的結(jié)構(gòu)化理解

基于語言的動(dòng)態(tài)組合能力

這也是它面對(duì)疊衣服這類陌生任務(wù)時(shí)，能進(jìn)行抓取、展開、對(duì)齊、折疊等組合推理，而非盲目猜測(cè)的原因。

這一步的關(guān)鍵是讓任務(wù)表示從「樣本驅(qū)動(dòng)」轉(zhuǎn)向「結(jié)構(gòu)驅(qū)動(dòng)」，使機(jī)器人能力像大語言模型一樣逐漸具備「涌現(xiàn)」?jié)摿Α?/p>

通過工作人員的口述引導(dǎo)，機(jī)器人能完成打開鍋蓋、放入食材、關(guān)閉機(jī)器等操作，即便訓(xùn)練數(shù)據(jù)中這類任務(wù)極少。

口述即可教會(huì)機(jī)器人新技能，若能廣泛應(yīng)用，數(shù)據(jù)采集成本將大幅降低。

Prompt成為可控執(zhí)行的引導(dǎo)機(jī)制

多數(shù)機(jī)器人系統(tǒng)中，Prompt僅為高層指令，實(shí)際行為由策略模型決定。

但在π0.7中，Prompt的角色發(fā)生轉(zhuǎn)變，承擔(dān)任務(wù)描述、執(zhí)行約束和中間指導(dǎo)功能，形式更多樣、詳細(xì)：

任務(wù)拆解方式
操作順序提示
糾錯(cuò)信號(hào)

PI的做法是給數(shù)據(jù)添加多樣上下文，形成多模態(tài)Prompt，甚至包含任務(wù)完成后的預(yù)期畫面。

此時(shí)，Prompt不再只是自然語言描述，而是與數(shù)據(jù)共同構(gòu)成更豐富的上下文，包括任務(wù)拆解、操作順序提示及潛在糾錯(cuò)信號(hào)。

這些信息在訓(xùn)練中被納入，使模型推理時(shí)能基于這些結(jié)構(gòu)決策。

PI團(tuán)隊(duì)強(qiáng)調(diào)，使用更多樣、詳細(xì)的Prompt可顯著提升模型能力。

跨本體泛化實(shí)現(xiàn)軟件硬件解耦

作為專注軟件的具身企業(yè)，PI希望像自動(dòng)駕駛軟件公司一樣，通過向機(jī)器人提供智能軟件盈利。

但機(jī)器人領(lǐng)域硬件種類繁多，軟件的跨本體泛化能力是PI必須解決的問題，這也是π0.7的核心能力之一。

具體任務(wù)中，π0.7在疊衣服時(shí)，訓(xùn)練數(shù)據(jù)無UR5e機(jī)器人疊衣服的樣本，但其完成度達(dá)85.6%。

相比之下，10名平均有375小時(shí)遙操經(jīng)驗(yàn)的人類操作員完成度為90.9%，兩者成功率相近，而π0.7在數(shù)據(jù)方面并無優(yōu)勢(shì)。

這種跨本體泛化潛力，為PI軟件的大規(guī)模商業(yè)應(yīng)用增添了底氣。

寫在最后

總體而言，π0.7的核心在于模型能力獲取方式的轉(zhuǎn)變。

以往模型能力增長多依賴數(shù)據(jù)覆蓋，見過的任務(wù)才能完成，泛化能力高度受訓(xùn)練分布限制。

π0.7展示了另一條路徑：用有限技能覆蓋無限任務(wù)空間，使模型能力增長不再單純線性依賴數(shù)據(jù)規(guī)模，更注重：

技能的拆解與復(fù)用；

任務(wù)的結(jié)構(gòu)化理解；

通過語言的動(dòng)態(tài)組合能力。

當(dāng)這些條件滿足后，機(jī)器人能力開始「涌現(xiàn)」，這種能力從結(jié)構(gòu)與組合中自然「生長」。

因此，PI研究員難以通過訓(xùn)練數(shù)據(jù)預(yù)測(cè)模型能力邊界，因?yàn)槟芰碓床辉偻耆珜?duì)應(yīng)具體數(shù)據(jù)，而是來自更高層次的組織方式。

有趣的是，在世界模型熱度高漲的當(dāng)下，π0.7的出現(xiàn)讓VLA路徑重新受到關(guān)注，世界模型的發(fā)展可能因此面臨挑戰(zhàn)。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

高鑫零售年度預(yù)虧3億至3.5億大潤發(fā)母公司由盈轉(zhuǎn)虧

Allbirds緣何舍棄運(yùn)動(dòng)鞋業(yè)務(wù)？

“最強(qiáng)打工妹”楊利娟回歸，能否破解海底撈的發(fā)展困局？

越捷航空逆勢(shì)新增5條中越航線簽租10架C909提前布局中國市場(chǎng)

固態(tài)電池第一股沖刺港交所，清陶能源能成為下一個(gè)寧德時(shí)代嗎？

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<li id="6o2mc"><object id="6o2mc"></object></li>