欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

GTC2026揭示機(jī)器人技術(shù)新趨勢:減少顯式中間層,提升響應(yīng)效率

03-20 06:36

本文來自微信公眾號:42號電波,作者:蘭博,編輯:James



在GTC2026大會(huì)上,黃仁勛展示了迪士尼經(jīng)典IP雪寶機(jī)器人的現(xiàn)場互動(dòng),其背后是英偉達(dá)面向機(jī)器人領(lǐng)域的全套技術(shù)更新,包括新版Isaac Platform、多模態(tài)基礎(chǔ)模型以及強(qiáng)化仿真與現(xiàn)實(shí)耦合的訓(xùn)練框架。這些技術(shù)延續(xù)了英偉達(dá)的積累,且呈現(xiàn)出工程化新變化:機(jī)器人系統(tǒng)正減少對“顯式中間層”的依賴,讓感知直接參與動(dòng)作生成,以提升響應(yīng)速度。



傳統(tǒng)VLA模型中,機(jī)器人接收感知信息后,需通過顯式語言理解任務(wù)并拆解為動(dòng)作序列,語言在此充當(dāng)中間層。而新路徑則弱化這類“顯式表征”,讓視覺輸入、環(huán)境狀態(tài)與任務(wù)條件直接進(jìn)入策略模型,模型在隱空間推理后輸出連續(xù)控制信號。類似變化也出現(xiàn)在世界模型領(lǐng)域,清華大學(xué)交叉信息研究院與Galaxea AI的論文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》針對“未來想象”這一中間結(jié)構(gòu)提出疑問,探討推理階段中間步驟的必要性。



無論是VLA還是世界模型,傳統(tǒng)“顯式中間層”易導(dǎo)致延遲過高,影響機(jī)器人在真實(shí)場景的落地。兩者指向同一底層變革:機(jī)器人系統(tǒng)正從分層顯式推理結(jié)構(gòu),轉(zhuǎn)向統(tǒng)一表示空間中的直接決策。





顯式中間層成機(jī)器人“負(fù)擔(dān)”



受大語言模型架構(gòu)啟發(fā),近一兩年的傳統(tǒng)VLA模型多采用分層架構(gòu),流程為語言理解、語義解析、任務(wù)分解、規(guī)劃及控制執(zhí)行。該結(jié)構(gòu)模塊清晰、可解釋性強(qiáng),但實(shí)際部署中問題漸顯:



  • 表示形式不一致:語言模型處理離散符號,規(guī)劃模塊操作結(jié)構(gòu)化任務(wù),控制系統(tǒng)依賴連續(xù)時(shí)間信號,跨層轉(zhuǎn)換易積累誤差。



  • 時(shí)間尺度不匹配:高層決策低頻,控制執(zhí)行需高頻閉環(huán)響應(yīng),分層易引發(fā)延遲與不一致。



世界模型(WAM)也存在類似問題,其通過生成未來視頻或狀態(tài)序列輔助決策,本質(zhì)是“先想象,再行動(dòng)”,將決策顯式展開為“預(yù)測、評估、選擇”,增加了計(jì)算與接口成本。





機(jī)器人需更快速響應(yīng)



GTC期間英偉達(dá)展示的技術(shù)更新,體現(xiàn)了從傳統(tǒng)流水線向緊湊結(jié)構(gòu)的演進(jìn),即從狀態(tài)直接到神經(jīng)策略再到機(jī)器人連續(xù)動(dòng)作。VLA模型中,語言位置發(fā)生變化:逐漸退出實(shí)時(shí)控制回路,更多作為訓(xùn)練階段的監(jiān)督信號或高層約束,而非每步動(dòng)作決策的輸入;策略模型直接輸出關(guān)節(jié)角速度或末端位姿等控制量,而非中間語義指令,內(nèi)部完成多模塊決策過程。



這種“收斂”也出現(xiàn)在WAM領(lǐng)域,F(xiàn)ast-WAM研究有所體現(xiàn)。傳統(tǒng)WAM包含訓(xùn)練階段學(xué)習(xí)視頻或狀態(tài)動(dòng)態(tài)表示、推理階段生成未來軌跡再選動(dòng)作兩部分;Fast-WAM則拆分驗(yàn)證,采用簡化結(jié)構(gòu):保留訓(xùn)練階段視頻建模,推理階段移除未來生成過程,直接從當(dāng)前觀測輸出動(dòng)作。實(shí)驗(yàn)表明,去掉推理時(shí)未來想象對性能影響小,去掉視頻訓(xùn)練則性能顯著下降,且Fast-WAM推理延遲降至約190毫秒,較需未來想象的方案提速約4倍。





中間層正在內(nèi)化



結(jié)合GTC系統(tǒng)變化與Fast-WAM研究,可見機(jī)器人系統(tǒng)減少顯式中間層、將其“內(nèi)化”為模型隱式表示的趨勢。語言和未來想象均為中間層,前者將復(fù)雜決策轉(zhuǎn)化為可解釋語義步驟,后者將決策展開為可預(yù)測軌跡。當(dāng)前變化表現(xiàn)為:不再顯式生成語言指令、不再顯式預(yù)測未來軌跡,而是在統(tǒng)一表示空間直接完成決策。模型不再“先做人類可解釋的推理”再執(zhí)行動(dòng)作,更接近控制系統(tǒng)“輸入狀態(tài)、輸出動(dòng)作”的自然形式,中間過程無需顯式展開。



趨勢背后的基礎(chǔ)條件



“減少中間層”趨勢并非單一模型設(shè)計(jì)結(jié)果,而是近一年多基礎(chǔ)條件成熟的體現(xiàn):



一是仿真與數(shù)據(jù)生成能力提升。基于NVIDIA Isaac Sim的大規(guī)模仿真,機(jī)器人可在虛擬環(huán)境生成穩(wěn)定可控、帶反饋的交互數(shù)據(jù)(含成功與失敗標(biāo)簽),使策略模型不再完全依賴昂貴真實(shí)數(shù)據(jù),實(shí)現(xiàn)從狀態(tài)到動(dòng)作的直接訓(xùn)練。Fast-WAM也依賴視頻級行為數(shù)據(jù)訓(xùn)練,性能源于訓(xùn)練階段學(xué)到的動(dòng)態(tài)表示,而非推理階段額外生成過程。



二是算力與模型結(jié)構(gòu)進(jìn)步。端到端策略或隱式?jīng)Q策模型需在統(tǒng)一表示空間同時(shí)處理感知與控制,對計(jì)算資源和模型穩(wěn)定性要求高。AI發(fā)展帶來的GPU與邊緣計(jì)算平臺性能提升,使這類模型能在實(shí)際系統(tǒng)運(yùn)行;時(shí)序Transformer、擴(kuò)散策略等結(jié)構(gòu)引入控制問題,讓模型在不顯式展開中間步驟時(shí)學(xué)習(xí)穩(wěn)定動(dòng)作分布。



三是數(shù)據(jù)閉環(huán)方式改變。策略模型更多依賴交互數(shù)據(jù)(軌跡、獎(jiǎng)勵(lì)信號、環(huán)境反饋),通過“執(zhí)行、反饋、再訓(xùn)練”循環(huán)優(yōu)化,而非依賴人類提供結(jié)構(gòu)化中間表示,進(jìn)一步削弱了中間層作用。





從“理解優(yōu)先”到“控制優(yōu)先”



削弱中間層的技術(shù)路徑讓機(jī)器人任務(wù)執(zhí)行更工程化,但也有代價(jià):可解釋性下降,分層系統(tǒng)能定位問題環(huán)節(jié),端到端或隱式模型錯(cuò)誤難拆解;調(diào)試方式改變,問題轉(zhuǎn)向數(shù)據(jù)與訓(xùn)練過程(如獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、仿真與現(xiàn)實(shí)差異、數(shù)據(jù)分布覆蓋),缺乏直接診斷手段;顯式中間層利于跨任務(wù)遷移,隱式表達(dá)更依賴訓(xùn)練分布,泛化能力存不確定性。因此,這類方法目前在倉儲、制造等結(jié)構(gòu)穩(wěn)定場景表現(xiàn)更佳。



從系統(tǒng)設(shè)計(jì)看,這是機(jī)器人從“以理解為中心”向“以控制為中心”的轉(zhuǎn)向。語言仍承擔(dān)訓(xùn)練與交互角色,未來想象仍有價(jià)值,但不再是推理必要步驟。底層執(zhí)行上,系統(tǒng)更依賴連續(xù)感知與動(dòng)作的直接映射及反饋優(yōu)化,是貼近控制本質(zhì)的工程取舍。中間層未完全消失,而是從系統(tǒng)結(jié)構(gòu)“壓縮”進(jìn)模型內(nèi)部,以隱式形式影響行為生成。機(jī)器人領(lǐng)域(VLA、世界模型)正走與智能駕駛相似的路徑:從規(guī)則符號、感知規(guī)劃,到感知直接映射動(dòng)作,“顯式中間層”重要性下降。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com