物理AI商業(yè)化落地,工廠(chǎng)或成首個(gè)破局點(diǎn)
本文來(lái)自微信公眾號(hào):極客公園,作者:LiYuan,編輯:鄭玄
近兩年來(lái),人形機(jī)器人與具身智能領(lǐng)域熱度持續(xù)攀升,融資消息、技術(shù)Demo與行業(yè)新概念不斷推高市場(chǎng)關(guān)注度。但在熱潮推進(jìn)的過(guò)程中,一個(gè)現(xiàn)實(shí)問(wèn)題逐漸凸顯:工業(yè)場(chǎng)景的落地門(mén)檻不會(huì)因?yàn)樾赂拍畹某霈F(xiàn)自動(dòng)降低。
直到今年,一大批打出「進(jìn)廠(chǎng)落地」旗號(hào)的企業(yè)真正扎根工業(yè)現(xiàn)場(chǎng)后,行業(yè)才看清一個(gè)事實(shí):Demo跑通,不代表整套系統(tǒng)能在工廠(chǎng)長(zhǎng)期穩(wěn)定、低故障運(yùn)行。哪怕是Figure AI這樣的行業(yè)明星企業(yè),也開(kāi)始從展示技術(shù)想象轉(zhuǎn)向驗(yàn)證設(shè)備的連續(xù)作業(yè)能力。
如今資本與產(chǎn)業(yè)端的關(guān)注點(diǎn)正在轉(zhuǎn)移:企業(yè)到底擁有哪些可復(fù)制的落地場(chǎng)景?客戶(hù)為什么愿意付費(fèi)采購(gòu)?投入產(chǎn)出比能不能達(dá)到要求?
我們就此采訪(fǎng)了微億智造董事長(zhǎng)兼CEO張志琦,他分享了微億從2018年開(kāi)始,如何一步步將AI技術(shù)落地到真實(shí)工業(yè)現(xiàn)場(chǎng);也聊到了在工廠(chǎng)環(huán)境中,視覺(jué)語(yǔ)言行動(dòng)(VLA)技術(shù)哪些場(chǎng)景能用、哪些暫時(shí)還無(wú)法落地,以及工業(yè)具身智能最終可能走向何方。
01
從2018年起步:給傳統(tǒng)機(jī)械臂裝上AI大腦
極客公園:微億智造把自家產(chǎn)品定義為「工業(yè)具身智能機(jī)器人」,但從外觀來(lái)看,它還是機(jī)械臂、相機(jī)、工裝和產(chǎn)線(xiàn)設(shè)備的組合。就拿外觀檢測(cè)來(lái)說(shuō),傳統(tǒng)機(jī)械臂也能完成,工業(yè)具身智能機(jī)器人也能做,兩者到底有什么本質(zhì)區(qū)別?
張志琦:沒(méi)錯(cuò),兩種方案都能完成外觀檢測(cè)任務(wù),但用到的技術(shù)邏輯完全不同,最終給客戶(hù)帶來(lái)的價(jià)值也不一樣。
微億智造2018年剛成立的時(shí)候,我們的核心產(chǎn)品其實(shí)更接近傳統(tǒng)自動(dòng)化設(shè)備:用一臺(tái)定焦相機(jī)拍攝工件,采集圖像后再用AI模型判斷缺陷類(lèi)型,最后分揀出不同品質(zhì)的產(chǎn)品。
這種模式確實(shí)用AI做了賦能,但還稱(chēng)不上是工業(yè)具身智能——本質(zhì)上,機(jī)器的每一步動(dòng)作還是提前靠編程固定好的。
到2022年的時(shí)候,微億接到了一個(gè)大客戶(hù)的項(xiàng)目:給長(zhǎng)度超過(guò)兩米的大型一體化壓鑄件做缺陷檢測(cè)和打磨。
這個(gè)零件需要拍攝近3000個(gè)點(diǎn)位,客戶(hù)要求整套流程必須在10分鐘以?xún)?nèi)完成。但傳統(tǒng)機(jī)械臂根本做不到——光是按照預(yù)設(shè)軌跡打磨一遍,就要花一個(gè)小時(shí),而熟練工人只需要七八分鐘就能做完。
差距其實(shí)不在機(jī)械臂的運(yùn)動(dòng)速度,而在自主判斷能力。工人會(huì)先定位缺陷位置,只加工有問(wèn)題的區(qū)域;但傳統(tǒng)機(jī)械臂只能按照預(yù)設(shè)路徑走完全部點(diǎn)位。這個(gè)客戶(hù)此前找了兩年多服務(wù)商,始終沒(méi)能解決這個(gè)問(wèn)題。
后來(lái)微億重新設(shè)計(jì)了一套「檢測(cè)加工一體化」的工業(yè)具身智能機(jī)器人。這套方案的基礎(chǔ),是我們從2018到2020年逐步研發(fā)成熟的飛拍技術(shù),能讓機(jī)械臂不停車(chē)連續(xù)拍攝,5分鐘以?xún)?nèi)就能完成3000個(gè)點(diǎn)位的圖像采集。
更關(guān)鍵的變化是,這套系統(tǒng)的拍攝點(diǎn)位和運(yùn)動(dòng)軌跡可以由算法自動(dòng)生成。
因?yàn)椴恍枰崆叭斯ぴO(shè)計(jì)軌跡,系統(tǒng)可以像工人一樣,先識(shí)別目標(biāo)和缺陷,再判斷哪些位置需要打磨,自動(dòng)生成加工軌跡。最終這套設(shè)備把檢測(cè)加打磨的總節(jié)拍壓縮到了7到10分鐘,已經(jīng)接近人工水平。
這種「感知—判斷—執(zhí)行」的自主能力,就是傳統(tǒng)自動(dòng)化和工業(yè)具身智能的核心分界點(diǎn)。
極客公園:如果說(shuō)在檢測(cè)打磨場(chǎng)景里,具身智能解決的是「先看、再判斷、再處理」的問(wèn)題,那在其他場(chǎng)景中,它和傳統(tǒng)機(jī)械臂的差異還體現(xiàn)在哪里?
張志琦:就拿我們2024年展示的具身智能裝配機(jī)器人來(lái)說(shuō),兩者的差異會(huì)更加明顯。
現(xiàn)在針對(duì)一些簡(jiǎn)單的裝配任務(wù),我們已經(jīng)可以做到:工人操作一遍,機(jī)器人通過(guò)視覺(jué)觀察一遍,就能理解裝配邏輯,再通過(guò)雙臂協(xié)同完成整個(gè)裝配過(guò)程。
對(duì)工業(yè)客戶(hù)來(lái)說(shuō),示教成本是非常關(guān)鍵的指標(biāo)。在真實(shí)工廠(chǎng)里,每臺(tái)設(shè)備安裝都會(huì)有誤差,傳統(tǒng)機(jī)械臂需要每臺(tái)單獨(dú)示教調(diào)試,根本滿(mǎn)足不了柔性生產(chǎn)的需求,調(diào)試太麻煩,工廠(chǎng)寧愿直接用人工。
但我們現(xiàn)在只需要一次視覺(jué)示范,就能讓機(jī)器人理解操作邏輯,能大幅縮短客戶(hù)的項(xiàng)目導(dǎo)入時(shí)間。
除此之外,現(xiàn)在的機(jī)器人已經(jīng)可以應(yīng)對(duì)現(xiàn)場(chǎng)的不確定性。
比如機(jī)器人已經(jīng)抓到零件了,你把零件拿走,它會(huì)自己重新去尋找目標(biāo);本來(lái)要沿著固定路徑取料,你把路徑擋住,它會(huì)自己想辦法繞開(kāi)。過(guò)去傳統(tǒng)機(jī)械臂更多是執(zhí)行工程師提前編好的動(dòng)作,而搭載了AI「大腦」的機(jī)器人,可以根據(jù)現(xiàn)場(chǎng)環(huán)境變化重新做決策。
我們現(xiàn)在也在落地物流行業(yè)的碼籠場(chǎng)景,機(jī)器人可以兼容各類(lèi)箱體和包裹,自動(dòng)設(shè)計(jì)放置策略完成智能分籠,這些都是傳統(tǒng)機(jī)械臂做不到的。
02
VLA技術(shù)落地,要過(guò)工廠(chǎng)0.1毫米精度這道關(guān)
極客公園:要做到這些能力,你們用到的是VLA技術(shù)嗎?行業(yè)普遍認(rèn)為VLA才是實(shí)現(xiàn)泛化能力的核心技術(shù)。
張志琦:我們認(rèn)為,工廠(chǎng)現(xiàn)場(chǎng)的崗位大體可以分成兩類(lèi):一類(lèi)是技術(shù)工種,一類(lèi)是普通普工。
技術(shù)工種的經(jīng)驗(yàn)很多都只掌握在老師傅手里,必須到具體現(xiàn)場(chǎng)才能積累得到。比如打磨、焊接、檢測(cè)這類(lèi)技術(shù)崗,我們現(xiàn)在沒(méi)有用VLA架構(gòu),甚至認(rèn)為未來(lái)也不一定需要用VLA架構(gòu)。
這類(lèi)場(chǎng)景基于規(guī)則引擎,加上對(duì)目標(biāo)對(duì)象的識(shí)別認(rèn)知、軌跡自動(dòng)規(guī)劃和執(zhí)行,甚至在執(zhí)行過(guò)程中完成有效糾偏、不斷優(yōu)化軌跡,就可以更快更高效地解決問(wèn)題。它仍然屬于AI技術(shù),但其實(shí)不需要特別大的模型參數(shù)——百億級(jí)別,甚至幾十億參數(shù)就能解決問(wèn)題。
而普工類(lèi)崗位,比如碼垛、上下料、分揀,普通人來(lái)了三十分鐘就能上崗,只要對(duì)物理世界有基礎(chǔ)認(rèn)知就能做。
這類(lèi)場(chǎng)景我們認(rèn)為就可以嘗試部署端到端技術(shù),用大量通用數(shù)據(jù)訓(xùn)練出一個(gè)泛化性更強(qiáng)的基礎(chǔ)模型,再結(jié)合工廠(chǎng)特定場(chǎng)景做微調(diào)泛化,最后落地應(yīng)用。我們兩三年前就開(kāi)始前瞻性布局VLA這類(lèi)技術(shù),今年已經(jīng)啟動(dòng)了項(xiàng)目POC驗(yàn)證。
極客公園:目前POC項(xiàng)目的推進(jìn)情況怎么樣?
張志琦:我們現(xiàn)在在幾個(gè)不同的場(chǎng)景做POC驗(yàn)證。
比如物流場(chǎng)景的無(wú)序碼籠:就是箱體大小不一,需要把它們規(guī)整碼放到物流籠車(chē)中,供下一個(gè)環(huán)節(jié)處理。

目前我們對(duì)箱體的識(shí)別、軌跡規(guī)劃的有效處理、異常情況的人機(jī)協(xié)同處理,還沒(méi)辦法做到完全端到端,仍然需要一些兜底策略。
但我們?cè)谶@個(gè)過(guò)程中也在不斷積累數(shù)據(jù),客戶(hù)也愿意和我們一起共建這個(gè)場(chǎng)景,我們?cè)噲D解決的問(wèn)題,其實(shí)和通用機(jī)器人公司在工業(yè)領(lǐng)域攻堅(jiān)的方向是一致的。
在我們看來(lái),像無(wú)序碼籠這類(lèi)任務(wù),技術(shù)難度甚至比供料還要高,因?yàn)榇a放本身需要特定的策略,不是簡(jiǎn)單把快遞翻個(gè)面就行——一般要大箱子鋪底,小箱子插縫放置。如果箱子有破損、是異形件或者易損件,還需要特殊處理,這里面大量依賴(lài)人類(lèi)的經(jīng)驗(yàn),對(duì)感知和決策都提出了更高要求。
極客公園:有沒(méi)有可能未來(lái)VLA發(fā)展足夠成熟,會(huì)把所有原來(lái)專(zhuān)用小模型覆蓋的場(chǎng)景全部替代掉?
張志琦:未來(lái)技術(shù)發(fā)展很難預(yù)判,但至少最近三五年內(nèi),VLA不太可能替代技術(shù)工種場(chǎng)景的方案,哪怕是普工場(chǎng)景也很難馬上完成替代。
一個(gè)核心原因是VLA目前的精度達(dá)不到要求,就算經(jīng)過(guò)強(qiáng)優(yōu)化,精度大概也只能做到厘米級(jí)或者幾毫米級(jí)。但像CNC上下料這類(lèi)場(chǎng)景,雖然屬于普工范疇,但要求誤差控制在0.1毫米以?xún)?nèi),還不允許出錯(cuò),這種要求下VLA目前還是沒(méi)法用。
不是所有場(chǎng)景都需要用最大的模型,也不是所有場(chǎng)景都應(yīng)該被VLA覆蓋。
我們2018年開(kāi)始做的,前面提到的偏自動(dòng)化設(shè)備的「AI賦能智能化產(chǎn)品」,到今天仍然在產(chǎn)生收入,就是因?yàn)檫@些場(chǎng)景里,原有自動(dòng)化搭配簡(jiǎn)單AI能力就已經(jīng)能把問(wèn)題解決好,那就應(yīng)該繼續(xù)做。
極客公園:如果VLA不是唯一答案,物理AI會(huì)不會(huì)是一個(gè)更大的技術(shù)框架?您怎么理解物理AI和工業(yè)具身智能的關(guān)系?
張志琦:從技術(shù)實(shí)現(xiàn)角度看,業(yè)內(nèi)說(shuō)的物理AI,大概率就是指世界模型——也就是讓AI能夠理解物理空間、物理場(chǎng)景、物體之間的相互關(guān)系,還有基礎(chǔ)物理規(guī)則本身。
具身智能更強(qiáng)調(diào)機(jī)器人本體和AI模型的深度結(jié)合,而物理AI承載的內(nèi)容可能比具身智能更廣,它不一定非要綁定某一種機(jī)器人本體。未來(lái)如果世界模型足夠強(qiáng)大,機(jī)器人本體反而可能沒(méi)那么重要。
我們認(rèn)為工業(yè)場(chǎng)景會(huì)是物理AI相對(duì)較早落地的方向之一,原因很簡(jiǎn)單:工業(yè)場(chǎng)景里的操作對(duì)象相對(duì)有限,任務(wù)邊界也比較清晰,所以技術(shù)上更容易達(dá)到可用的狀態(tài)。
03
未來(lái)工業(yè)賽場(chǎng),主流競(jìng)爭(zhēng)者會(huì)越來(lái)越不像人形
極客公園:今年以來(lái),微億智造的客戶(hù)情況有什么新變化?
張志琦:客戶(hù)的行業(yè)覆蓋一直在擴(kuò)展,新能源汽車(chē)、3C消費(fèi)電子這些原有客戶(hù),每年都持續(xù)下單,既有原有場(chǎng)景的復(fù)制,也有新場(chǎng)景的落地。
工業(yè)場(chǎng)景里,客戶(hù)的信任是非常重要的:客戶(hù)原來(lái)用我們的產(chǎn)品好用,就會(huì)接著問(wèn),我們這邊新場(chǎng)景還有很多人工崗位,能不能換成你們的方案?我們也就跟著客戶(hù)的需求往前推進(jìn)。
今年讓我們比較欣喜的是,海外業(yè)務(wù)也開(kāi)始從0到1突破了。未來(lái)兩三年,我們希望海外收入能占到總營(yíng)收的20%到30%。一方面,我們可以把國(guó)內(nèi)打磨成熟的產(chǎn)品通過(guò)海外渠道快速推出去;另一方面,海外也有自己的獨(dú)特需求——有些項(xiàng)目在國(guó)內(nèi)算不過(guò)來(lái)ROI,在海外可能就能達(dá)標(biāo)。
極客公園:下一步在技術(shù)能力上,你們更關(guān)注哪些方向?
張志琦:下一步重點(diǎn)是把觸覺(jué)能力徹底打通?,F(xiàn)在很多項(xiàng)目我們不敢碰,核心瓶頸就是觸覺(jué)。比如插拔、理線(xiàn)這類(lèi)任務(wù),都非常依賴(lài)觸覺(jué)反饋。
但目前觸覺(jué)技術(shù)的發(fā)展遠(yuǎn)落后于視覺(jué),把觸覺(jué)融入系統(tǒng)后,整個(gè)模型都會(huì)發(fā)生很大變化,甚至不一定是基于語(yǔ)言模型的架構(gòu)。
我們的判斷是:加入觸覺(jué)模型后,視覺(jué)仍然會(huì)發(fā)揮重要作用。純觸覺(jué)能完成的任務(wù)很少,但和視覺(jué)判斷結(jié)合后,能處理的任務(wù)會(huì)大幅增加。
從去年開(kāi)始,我們已經(jīng)啟動(dòng)了觸覺(jué)方向的前沿研究,核心是做觸覺(jué)模型和視覺(jué)模型的深度融合,目前同時(shí)在看兩條技術(shù)路線(xiàn):霍爾觸覺(jué)和視觸覺(jué)。
極客公園:未來(lái)三年,你覺(jué)得工業(yè)具身智能哪些細(xì)分賽道會(huì)迎來(lái)爆發(fā)?
張志琦:工廠(chǎng)里人工密集的崗位都有機(jī)會(huì)。哪怕具身智能相關(guān)收入每年翻番,我也不覺(jué)得接近天花板了,技術(shù)還需要持續(xù)提升。
但我覺(jué)得現(xiàn)在離真正的大規(guī)模爆發(fā)還很遠(yuǎn),如果真的算爆發(fā),那應(yīng)該是工廠(chǎng)里的用工數(shù)量明顯下降,哪怕減少五分之四還能正常生產(chǎn),那才算真的爆發(fā)。
過(guò)去工廠(chǎng)很多時(shí)候是把人當(dāng)機(jī)器用:質(zhì)檢崗位非常傷眼睛,年輕姑娘在強(qiáng)光下看兩年產(chǎn)品,視力可能就會(huì)出問(wèn)題;拆碼垛這類(lèi)重體力活,對(duì)工人的腰和身體都會(huì)造成不可逆的損傷,這些崗位都應(yīng)該優(yōu)先被替代。
極客公園:未來(lái)的行業(yè)競(jìng)爭(zhēng)中,傳統(tǒng)工業(yè)機(jī)械臂公司、微億這樣的工業(yè)具身智能公司,還有追求泛化AGI的人形具身智能公司,各自的優(yōu)勢(shì)和短板是什么?
張志琦:我們的優(yōu)勢(shì)還是對(duì)工業(yè)場(chǎng)景的深度理解。很多公司說(shuō)「我也能做」,那不妨來(lái)現(xiàn)場(chǎng)試試。具身智能有意思的地方就在于,是不是好用拉出來(lái)遛遛就知道,客戶(hù)愿不愿意買(mǎi)單是最直觀的檢驗(yàn)。
在ROI可算得過(guò)來(lái)的前提下能不能完成任務(wù),這是工業(yè)落地最基本的第一性原理。
現(xiàn)在我們的競(jìng)爭(zhēng)對(duì)手很多還是傳統(tǒng)自動(dòng)化公司,說(shuō)實(shí)話(huà),自動(dòng)化公司里也有不少能工巧匠,可以設(shè)計(jì)出特殊的結(jié)構(gòu)構(gòu)型,滿(mǎn)足柔性生產(chǎn)的需求。
但從中長(zhǎng)期看,未來(lái)主流的競(jìng)爭(zhēng)對(duì)手大概率會(huì)是那些做得越來(lái)越不像人的人形機(jī)器人公司。
對(duì)追求AGI的具身智能公司來(lái)說(shuō),估值核心還是生活場(chǎng)景,但生活場(chǎng)景落地太難了,走著走著就會(huì)轉(zhuǎn)向工業(yè)場(chǎng)景,轉(zhuǎn)過(guò)來(lái)又發(fā)現(xiàn)純?nèi)诵尾皇沁m合工業(yè)的架構(gòu),于是開(kāi)始做泛人形。但泛人形在生活場(chǎng)景里又會(huì)遇到新的問(wèn)題。
這兩年人形機(jī)器人公司已經(jīng)開(kāi)始改口,說(shuō)自己的產(chǎn)品是泛人形,泛人形的問(wèn)題是還要沾著「人形」的邊,因?yàn)橛腥诵喂镜臄⑹掳?,還得加個(gè)頭部,你說(shuō)和傳統(tǒng)機(jī)械臂組合有什么差異?其實(shí)沒(méi)什么差異。
我覺(jué)得這些都是最早堅(jiān)持全人形結(jié)構(gòu)的時(shí)候,大家講給投資人聽(tīng)的故事,到今天實(shí)際落地,大家都發(fā)現(xiàn)全人形有成本問(wèn)題:多一個(gè)關(guān)節(jié)、多一個(gè)自由度,對(duì)算力的要求就會(huì)高很多,一個(gè)全身四五十個(gè)自由度的機(jī)器人,需要多少算力才能流暢完成任務(wù)?
回到工廠(chǎng)場(chǎng)景,說(shuō)到底,工廠(chǎng)在意的就是能不能解決問(wèn)題,其他都是其次。
極客公園:只聚焦工業(yè)場(chǎng)景,外界會(huì)不會(huì)擔(dān)心你們?cè)谝粋€(gè)個(gè)項(xiàng)目交付里分散精力,沒(méi)有足夠的技術(shù)力量沖擊更高的技術(shù)目標(biāo)?
張志琦:這個(gè)擔(dān)心其實(shí)多余了?,F(xiàn)在在AI技術(shù)研發(fā)投入上,微億和國(guó)內(nèi)絕大多數(shù)AI公司的投入強(qiáng)度是差不多的,我們不是以項(xiàng)目交付為核心,而是以研發(fā)為核心驅(qū)動(dòng)力。
我們這一代AI公司和上一代AI公司最大的區(qū)別是:物理AI的世界里一定需要一個(gè)實(shí)體載體,有載體就會(huì)有和物理世界的交互,就會(huì)有反饋機(jī)制,產(chǎn)生新的訓(xùn)練數(shù)據(jù),所以也一定會(huì)有一批新公司跑出來(lái)。
極客公園:你覺(jué)得現(xiàn)在市場(chǎng)宣傳或者投資人敘事里,最不靠譜的說(shuō)法是什么?
張志琦:以前只要放出一個(gè)機(jī)械本體、拼出一個(gè)人形外觀,大家就覺(jué)得這家公司能做人形機(jī)器人了。到今天,二級(jí)市場(chǎng)這類(lèi)公司也很多,但再只放一個(gè)人形外觀,大家已經(jīng)不信了。
過(guò)去很多Demo演示背后其實(shí)是人工遙操作,大家之前并不了解,現(xiàn)在慢慢明白,有些機(jī)器人是自主運(yùn)行,有些還是遙操作。這個(gè)變化的核心,是市場(chǎng)越來(lái)越認(rèn)識(shí)到AI才是核心,也看清有些公司其實(shí)只做了運(yùn)動(dòng)控制,并沒(méi)有做機(jī)器人的AI大腦。
所以對(duì)我們來(lái)說(shuō),過(guò)去可能吃了外觀的虧——看起來(lái)就是傳統(tǒng)機(jī)械臂,但現(xiàn)在我們更希望大家理解,有沒(méi)有AI大腦的機(jī)械臂,差別其實(shí)非常大。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





