人形機(jī)器人應(yīng)用場(chǎng)景加速拓展,數(shù)據(jù)瓶頸成關(guān)鍵制約
從特斯拉Optimus進(jìn)入工廠開(kāi)啟人形機(jī)器人工作潮流,到機(jī)器人結(jié)合腦機(jī)接口技術(shù)助力康復(fù)訓(xùn)練,再到上緯啟元推出首款面向科研、創(chuàng)作及家庭用戶(hù)的個(gè)人機(jī)器人Q1并開(kāi)放“二次開(kāi)發(fā)”能力,過(guò)去幾年還多停留在實(shí)驗(yàn)室和舞臺(tái)的人形機(jī)器人,如今應(yīng)用邊界正朝著更具持續(xù)性“作業(yè)”的場(chǎng)景拓展。

上緯啟元Q1個(gè)人機(jī)器人身高僅80cm,針對(duì)科研、創(chuàng)作和家庭用戶(hù)的“二次創(chuàng)作”需求設(shè)計(jì)
市場(chǎng)研究機(jī)構(gòu)IDC的數(shù)據(jù)表明,2025年全球人形機(jī)器人市場(chǎng)將進(jìn)入加速發(fā)展階段,應(yīng)用需求主要集中在文娛商演、科研教育、數(shù)據(jù)采集、導(dǎo)覽導(dǎo)購(gòu)、工業(yè)制造與倉(cāng)儲(chǔ)物流等領(lǐng)域。
然而,隨著機(jī)器人從樣機(jī)向規(guī)?;瘧?yīng)用邁進(jìn),一個(gè)無(wú)法回避的現(xiàn)實(shí)問(wèn)題逐漸凸顯——數(shù)據(jù)正成為具身智能進(jìn)一步發(fā)展的阻礙。
場(chǎng)景持續(xù)擴(kuò)張,數(shù)據(jù)卻遠(yuǎn)遠(yuǎn)滯后
和自動(dòng)駕駛、通用大模型類(lèi)似,具身智能也高度依賴(lài)數(shù)據(jù)驅(qū)動(dòng)。但與前兩者不同的是,機(jī)器人所需的數(shù)據(jù)不只是視覺(jué)和語(yǔ)言信息,還包括在真實(shí)物理世界中完成接觸、施力、協(xié)同以及失敗過(guò)程的完整記錄。
實(shí)際情況是,這類(lèi)數(shù)據(jù)十分稀缺。
一方面,真實(shí)機(jī)器人數(shù)據(jù)的采集成本高、周期長(zhǎng)。每一次抓取、插入、搬運(yùn)、雙臂協(xié)作,都伴隨著硬件磨損、人力投入和復(fù)雜標(biāo)注;另一方面,僅依靠公開(kāi)視頻、仿真數(shù)據(jù),難以體現(xiàn)第一人稱(chēng)視角下的真實(shí)操作意圖,更無(wú)法覆蓋觸覺(jué)、接觸力等關(guān)鍵物理維度的數(shù)據(jù)。
“如果只依靠視頻,機(jī)器人永遠(yuǎn)學(xué)不會(huì)如何用力?!鄙虾R晃痪呱碇悄茴I(lǐng)域的研究人員向《科創(chuàng)板日?qǐng)?bào)》記者坦言,這意味著在本體性能逐漸接近、硬件方案趨于一致的背景下,誰(shuí)能率先積累高質(zhì)量、可泛化的真實(shí)交互數(shù)據(jù),誰(shuí)就更有可能在接下來(lái)的階段掌握模型與生態(tài)的話語(yǔ)權(quán)。
在此背景下,圍繞數(shù)據(jù)、接口與標(biāo)準(zhǔn)的協(xié)作明顯增多。近期,上海多家機(jī)器人企業(yè)與科研機(jī)構(gòu)陸續(xù)發(fā)布或推進(jìn)數(shù)據(jù)集建設(shè)。
國(guó)地中心還聯(lián)合上海緯鈦科技有限公司發(fā)布了全球首個(gè)大規(guī)??绫倔w視觸覺(jué)多模態(tài)數(shù)據(jù)集——白虎-VTouch。該數(shù)據(jù)集包含視觸覺(jué)傳感器數(shù)據(jù)、RGB-D數(shù)據(jù)、關(guān)節(jié)位姿等多模態(tài)信息,覆蓋輪臂機(jī)器人、雙足機(jī)器人及手持終端等多種本體構(gòu)型,數(shù)據(jù)規(guī)模超過(guò)6萬(wàn)分鐘,被業(yè)內(nèi)認(rèn)為是目前全球規(guī)模最大、模態(tài)最完整的視觸覺(jué)真實(shí)交互數(shù)據(jù)集之一。
在國(guó)家地方共建人形機(jī)器人創(chuàng)新中心(以下簡(jiǎn)稱(chēng)“國(guó)地中心”)的訓(xùn)練場(chǎng)里,每天都有多臺(tái)機(jī)器人同時(shí)執(zhí)行多種真實(shí)場(chǎng)景的作業(yè)任務(wù)。

國(guó)地中心訓(xùn)練場(chǎng)中機(jī)器人進(jìn)行典型場(chǎng)景的真機(jī)操作
據(jù)國(guó)地中心介紹,與以往“單任務(wù)、人工采集”的方式不同,白虎-VTouch采用了“矩陣式”任務(wù)構(gòu)建思路,從雙臂協(xié)同結(jié)構(gòu)、原子操作類(lèi)型、接觸與觸覺(jué)模式三個(gè)維度進(jìn)行系統(tǒng)設(shè)計(jì),覆蓋家居、工業(yè)、餐飲、特種作業(yè)等四大類(lèi)場(chǎng)景、380余種任務(wù)類(lèi)型。
“數(shù)據(jù)并非越多越好”
關(guān)于數(shù)據(jù)的重要性,傅利葉CEO顧捷在近期接受《科創(chuàng)板日?qǐng)?bào)》等媒體采訪時(shí)給出了更為理性的判斷。
顧捷表示,數(shù)據(jù)對(duì)機(jī)器人未來(lái)是否具備泛化能力至關(guān)重要,這一點(diǎn)在自動(dòng)駕駛和早期大模型的發(fā)展中已被多次驗(yàn)證。但他同時(shí)強(qiáng)調(diào),數(shù)據(jù)并非越多越好,質(zhì)量、結(jié)構(gòu)與來(lái)源同樣關(guān)鍵。
“一項(xiàng)任務(wù)重復(fù)執(zhí)行一千次甚至一萬(wàn)次,有時(shí)并沒(méi)有太大價(jià)值。真正有價(jià)值的是在不同任務(wù)之間切換,并且包含成功與失敗的完整過(guò)程?!鳖櫧葜赋?。
他進(jìn)一步認(rèn)為,機(jī)器人數(shù)據(jù)不能僅依賴(lài)自身采集?;ヂ?lián)網(wǎng)上的大量公開(kāi)視頻可以作為基礎(chǔ),但這些視頻的局限在于缺乏第一人稱(chēng)視角,難以反映人類(lèi)真實(shí)的操作意圖。因此,還需要大量基于人類(lèi)第一視角的人體運(yùn)動(dòng)和操作數(shù)據(jù),并將其與機(jī)器人在真實(shí)環(huán)境中采集的本體數(shù)據(jù)相融合。
在傅利葉的規(guī)劃中,理想的數(shù)據(jù)結(jié)構(gòu)由三部分組成:公開(kāi)視頻作為大規(guī)?;A(chǔ)、第一人稱(chēng)人類(lèi)交互數(shù)據(jù)作為核心補(bǔ)充、再加上小批量但高價(jià)值的機(jī)器人實(shí)際采集數(shù)據(jù)。即便后者占比不高,其絕對(duì)數(shù)量未來(lái)也可能達(dá)到億級(jí)。

傅利葉GR-3機(jī)器人參與手眼康復(fù)訓(xùn)練
圍繞數(shù)據(jù)展開(kāi)的競(jìng)爭(zhēng),正朝著更底層的方向延伸。
一方面,多模態(tài)傳感器、視觸覺(jué)融合等技術(shù)不斷成熟,使得真實(shí)物理交互數(shù)據(jù)的采集成為可能;另一方面,對(duì)數(shù)據(jù)格式、標(biāo)注體系與訓(xùn)練標(biāo)準(zhǔn)的協(xié)同需求迅速上升。
近期,庫(kù)帕思與它石智航宣布達(dá)成戰(zhàn)略合作,明確提出將共同推進(jìn)具身數(shù)據(jù)標(biāo)準(zhǔn)建設(shè);傅利葉也聯(lián)合多家醫(yī)院、高校與科研機(jī)構(gòu),發(fā)起“腦機(jī)具身·數(shù)據(jù)引擎聯(lián)合創(chuàng)新計(jì)劃”,嘗試在康復(fù)等場(chǎng)景中打通腦機(jī)接口與具身智能的數(shù)據(jù)閉環(huán)。
本文來(lái)自微信公眾號(hào)“科創(chuàng)日?qǐng)?bào)”,作者:張洋洋,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



