Agent驅(qū)動下的具身智能變革:機器人產(chǎn)業(yè)的范式重構(gòu)與未來方向
AI正加速融入物理世界,重塑著具身智能機器人的運行模式。
在3月OpenClaw走紅之前,開發(fā)者社區(qū)已有人將Agent接入機器人,打通了從指令到執(zhí)行的完整鏈路。
有開發(fā)者把OpenClaw接入真實機器人,借助ROS 2(機器人操作系統(tǒng)框架)和WebRTC(實時通信技術(shù)),用戶在Telegram或Discord發(fā)消息,遠端機器人就能接收指令、讀取攝像頭與傳感器信息,完成抓取、移動等操作。該項目在2月OpenClaw Hackathon中奪冠。
這類項目的深遠意義在于:機器人不再只是“被編程的執(zhí)行體”,開始成為由Agent驅(qū)動的“自主行動系統(tǒng)”。
實際上,Agent接入機器人的探索早已在行業(yè)展開,涌現(xiàn)出一批實踐案例。
海外方面,Google DeepMind、OpenAI、特斯拉等廠商嘗試將大模型能力引入機器人系統(tǒng),讓機器人理解自然語言指令并在真實環(huán)境完成操作;英偉達等公司持續(xù)推進相關(guān)平臺與工具建設(shè),降低AI接入真實設(shè)備的門檻。
國內(nèi)方面,宇樹科技、大曉機器人等廠商也開始探索大模型與機器人系統(tǒng)的結(jié)合,在真實場景中進行落地嘗試。
當(dāng)Agent接管“身體”,具身智能機器人的核心驅(qū)動因素發(fā)生了怎樣的變化?這輪由Agent引發(fā)的重構(gòu),將把機器人產(chǎn)業(yè)帶向何處?新的競爭將圍繞什么展開?
在博鰲亞洲論壇2026年年會上,商湯聯(lián)合創(chuàng)始人、大曉機器人董事長王曉剛在會后交流中表示,具身智能正在經(jīng)歷底層范式重構(gòu)——從以機器為中心的研發(fā)方式,轉(zhuǎn)向“以人為中心”、更依賴真實世界數(shù)據(jù)的研發(fā)體系。這不僅會改變技術(shù)路線,也將重塑整個產(chǎn)業(yè)的競爭邏輯。

商湯聯(lián)合創(chuàng)始人、大曉機器人董事長王曉剛
圍繞Agent時代下具身智能的范式變化、技術(shù)路徑、成本結(jié)構(gòu)及產(chǎn)業(yè)格局等關(guān)鍵問題,王曉剛逐一解答,以下為交流實錄精華內(nèi)容:
Q:隨著AI從工具輔助角色走向具備執(zhí)行能力的Agent,具身智能機器人的核心驅(qū)動力是否正在發(fā)生變化?
王曉剛:隨著AI進入Agent時代,具身智能機器人正在經(jīng)歷底層范式的轉(zhuǎn)變。
首先是數(shù)據(jù)獲取方式的重構(gòu)。我們提出了“環(huán)境式數(shù)據(jù)采集(Ambient Data Collection)”這一新研究范式。
過去的數(shù)據(jù)采集“以機器為中心”,主要依賴人在實驗室操作設(shè)備、構(gòu)建場景;而現(xiàn)在正轉(zhuǎn)向“以人為中心”,通過讓大量真實用戶在真實生產(chǎn)生活環(huán)境中穿戴傳感器來采集數(shù)據(jù)。這使數(shù)據(jù)來源從封閉場景走向開放世界,規(guī)模也從有限采集躍升至大規(guī)模分布式采集。
這種變化直接帶來數(shù)據(jù)量級的躍升。過去幾年,行業(yè)積累的機器人訓(xùn)練數(shù)據(jù)約在10萬小時量級,而未來一到兩年內(nèi),我們判斷有望達到千萬小時量級,增長數(shù)百倍。這不僅會顯著提升模型的泛化能力,也會同步拉動對算力與存儲基礎(chǔ)設(shè)施的需求,成為行業(yè)新的基礎(chǔ)變量。
其次是產(chǎn)業(yè)鏈重心的變化。隨著數(shù)據(jù)和模型重要性不斷上升,具身智能的競爭正從“硬件能力”逐步轉(zhuǎn)向“模型能力+數(shù)據(jù)能力”的綜合競爭。誰能構(gòu)建更具規(guī)模和質(zhì)量的數(shù)據(jù)體系,誰的模型生態(tài)更具影響力,誰就更可能在行業(yè)中占據(jù)主導(dǎo)地位。
最后是算力體系與生態(tài)的重構(gòu)。未來國產(chǎn)算力將逐步成為重要支撐,這要求模型從設(shè)計之初就具備良好的適配能力。
在此背景下,模型與芯片的協(xié)同將更緊密,模型影響力也會反過來影響算力生態(tài)的選擇。因此,我們選擇開源“開悟”世界模型3.0,一方面推動開發(fā)者生態(tài)形成,另一方面更好地完成對國產(chǎn)算力體系的適配與協(xié)同。
整體而言,Agent時代帶來的不僅是能力提升,更是從數(shù)據(jù)、模型到算力的系統(tǒng)性重構(gòu),具身智能的行業(yè)格局也將因此進入新一輪洗牌階段。
Q:從技術(shù)路線來看,Agent時代與過去相比發(fā)生了哪些關(guān)鍵變化?具身智能正在向什么方向演進?
王曉剛:過去的主流路線,是基于“機器中心”的數(shù)據(jù)采集方式,結(jié)合VLA(Vision-Language-Action)模型——給定指令,模型直接輸出機器人的動作參數(shù)或結(jié)構(gòu)參數(shù),本質(zhì)是“指令到動作”的映射,但對真實物理世界的理解相對有限。
現(xiàn)在,我們正轉(zhuǎn)向新的技術(shù)路徑——“環(huán)境式數(shù)據(jù)采集 + 世界模型”。所謂世界模型,本質(zhì)是讓模型學(xué)習(xí)人類在真實環(huán)境中與世界交互的物理規(guī)律和行為邏輯,而非僅完成指令到動作的映射。
沿著這條路線演進,具身智能有望迎來類似ChatGPT的“關(guān)鍵躍遷時刻”,實現(xiàn)從可用到真正可規(guī)模化應(yīng)用的跨越。
短期來看,這兩種路線更可能是協(xié)作關(guān)系。世界模型更像“大腦”,具備較強的預(yù)測和推理能力。當(dāng)機器人接收到復(fù)雜任務(wù)時,世界模型會先在“腦海”中預(yù)演可能場景并進行規(guī)劃;執(zhí)行具體動作時,可調(diào)用VLA模型完成操作。
如果執(zhí)行結(jié)果與世界模型的預(yù)測不一致,就會再次調(diào)用世界模型重新規(guī)劃。這種“規(guī)劃+執(zhí)行”的分工,是短期內(nèi)比較現(xiàn)實的技術(shù)路徑。
但長期來看,隨著能力提升,世界模型有可能逐步吸收VLA的能力,實現(xiàn)一體化。
Q:在這一變化中,數(shù)據(jù)體系也在調(diào)整。訓(xùn)練機器人“世界模型”與VLA模型,在數(shù)據(jù)來源上有哪些關(guān)鍵差異?
王曉剛:訓(xùn)練世界模型通常需要三類數(shù)據(jù)。
第一類是互聯(lián)網(wǎng)中的圖像和文本數(shù)據(jù),包含大量物理規(guī)律,相當(dāng)于“讀書”,幫助模型學(xué)習(xí)物理定律及人的行為邏輯,但僅靠這類數(shù)據(jù)不夠。
第二類是人類在真實環(huán)境中的行為數(shù)據(jù),包括人如何工作、生活以及與物理環(huán)境交互,這是具身智能能力形成的關(guān)鍵基礎(chǔ)。
第三類是少量真機數(shù)據(jù)。因為即便模型理解了物理世界、知道人如何完成任務(wù),最終仍需將這些能力映射到具體機器人的參數(shù)體系上。
相比之下,VLA模型主要依賴真機數(shù)據(jù),路徑更直接,但泛化能力存在一定限制。
Q:在“人形機器人的進階與飛躍”分論壇上,幾位嘉賓談到具身智能的“ChatGPT時刻”,對機器人實現(xiàn)躍遷時刻的行業(yè)判斷存在分歧。有的認為兩年即可實現(xiàn),也有人認為需要十年。您如何理解?
王曉剛:大家對“ChatGPT時刻”的理解和側(cè)重點不完全一樣。
比如認為需要十年的人,更多指機器人在現(xiàn)實世界中的大規(guī)模落地,比如進入家庭,這確實可能需要五到十年甚至更長時間。而我們所說的“ChatGPT時刻”,更側(cè)重于具身智能“大腦”的突破,即模型在通用性和泛化能力上實現(xiàn)躍遷,出現(xiàn)類似“智能涌現(xiàn)”的階段,讓技術(shù)路徑具備高度確定性。
就像ChatGPT在2022年底剛推出時,雖不完美,但已驗證:只要持續(xù)擴大數(shù)據(jù)規(guī)模和算力規(guī)模,能力就會持續(xù)提升,路徑清晰。
在具身智能領(lǐng)域也是如此。我們期待的不是系統(tǒng)完全成熟,而是驗證這條路徑“可行且可放大”。
其中一個關(guān)鍵前提是數(shù)據(jù)規(guī)模的突破。當(dāng)具備大量真實人類行為數(shù)據(jù)后,才有可能訓(xùn)練出真正具備通用能力的具身大腦。
Q:在Agent時代的新范式下,具身智能的成本結(jié)構(gòu)會發(fā)生哪些變化,主要體現(xiàn)在哪些環(huán)節(jié)?
王曉剛:過去的研發(fā)范式,是針對不同機器人分別采集數(shù)據(jù)、訓(xùn)練模型,本體之間難以通用。今年為一種機器人積累的數(shù)據(jù)和模型,明年更換本體往往需要重新來過,這種方式不可持續(xù)。同時,傳統(tǒng)數(shù)據(jù)采集依賴人為操作機器完成,效率低且脫離真實生產(chǎn)生活場景。
而在新范式下,通過環(huán)境式數(shù)據(jù)采集,數(shù)據(jù)可在真實場景中自然產(chǎn)生——例如保潔人員、產(chǎn)線工人在日常工作中同步完成數(shù)據(jù)采集,無需額外成本。
這將顯著降低數(shù)據(jù)采集成本,同時隨著數(shù)據(jù)規(guī)模和通用性的提升,也會進一步降低模型訓(xùn)練成本。
Q:在OpenClaw這類Agent框架上,大曉機器人做了哪些探索?在將其引入物理世界的過程中,安全問題是如何考慮的?
王曉剛:我們的一個重要方向,是將OpenClaw類工具從數(shù)字世界延伸到物理世界。為此,我們構(gòu)建了機管平臺,用于統(tǒng)一控制多臺機器人。同時,在平臺中引入強化學(xué)習(xí)機制,讓機器人在不同場景空間中持續(xù)探索并完成任務(wù),通過反饋不斷加速學(xué)習(xí)過程。
在安全方面,機管平臺的核心作用是實現(xiàn)“安全隔離”。平臺連接著各種用戶需求,如果將這些需求直接作用到機器人上,可能帶來不可預(yù)期的風(fēng)險。通過機管平臺這一中間層,可將用戶需求與機器人執(zhí)行過程分離,確保只有經(jīng)過驗證的、安全可靠的任務(wù)才會被下發(fā)執(zhí)行。
Q:在Agent能力引入之后,具身智能機器人的商業(yè)模式會發(fā)生哪些變化?對于收費方式是如何考慮的?
王曉剛:目前,我們的核心商業(yè)模式仍是軟硬一體的產(chǎn)品形態(tài),即提供機器人本體加上“大腦”,用于解決零售、職場辦公等具體場景中的問題。
在此基礎(chǔ)上,我們選擇將世界模型開源,是希望擴大技術(shù)影響力,讓更多開發(fā)者參與進來,并在行業(yè)中逐步形成標準。只有開源之后,大家才能真實使用、反饋問題,推動模型不斷迭代優(yōu)化,最終形成統(tǒng)一的技術(shù)生態(tài)。
Q:在Agent驅(qū)動的新階段,中美在技術(shù)路徑和產(chǎn)業(yè)推進上有哪些差異?中國廠商的機會在哪里?
王曉剛:從技術(shù)路線來看,變化非???。例如特斯拉自身也在不斷調(diào)整路徑,從以真機數(shù)據(jù)為主,逐步轉(zhuǎn)向以人為中心的數(shù)據(jù)采集方式。
從另一個角度看,中美之間的差異更多體現(xiàn)在場景層面。中國具備更豐富的應(yīng)用場景,同時地方政府對機器人產(chǎn)業(yè)的支持力度較大,能幫助企業(yè)快速進入不同場景,積累多樣化的數(shù)據(jù),這對模型能力的提升非常關(guān)鍵。相比之下,美國更多依賴少數(shù)大型企業(yè),通過自上而下的方式完成數(shù)據(jù)積累。
Q:從應(yīng)用落地來看,人形機器人進入家庭還需要經(jīng)歷哪些階段?哪些類型的產(chǎn)品可能最先實現(xiàn)規(guī)?;涞兀?/strong>
王曉剛:人形機器人進入家庭仍需較長時間。如果是類似玩具的陪伴型機器人,由于對安全性要求較低,可能會更早落地。但一旦涉及實際操作任務(wù),家庭場景的復(fù)雜性和安全要求會顯著提高,例如必須確保不會對老人和兒童造成傷害。
此外,相關(guān)的技術(shù)問題、法律法規(guī)以及倫理問題也仍需進一步完善。因此,當(dāng)前更現(xiàn)實的路徑,是先在to B的垂直場景中落地,在驗證技術(shù)成熟度和安全性之后,再逐步進入家庭場景。
本文來自微信公眾號“騰訊科技”,作者:李海倫,編輯:劉鵬,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



