欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

谷歌又放大招了,能干翻ChatGPT么?

商界觀察
2023-03-09

大語言模型的飛速“變異”,讓人類社會(huì)的走向越來越科幻了。點(diǎn)亮這棵科技樹后,“終結(jié)者”的現(xiàn)實(shí)仿佛離我們?cè)絹碓浇?/span>

 

前幾天,微軟剛宣布了一個(gè)實(shí)驗(yàn)框架,能用ChatGPT來控制機(jī)器人和無人機(jī)。

 

谷歌當(dāng)然也不甘其后,在周一,來自谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大視覺語言模型——PaLM-E。

 

作為一種多模態(tài)具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,而且竟然還能將兩者結(jié)合起來,處理復(fù)雜的機(jī)器人指令。

 

此外,通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結(jié)合,PaLM-E最終的參數(shù)量高達(dá)5620億。

 

橫跨機(jī)器人、視覺-語言領(lǐng)域的“通才”模型

 

PaLM-E,全稱Pathways Language Model with Embodied,是一種具身視覺語言模型。

 

它的強(qiáng)大之處在于,能夠利用視覺數(shù)據(jù)來增強(qiáng)其語言處理能力。

 

當(dāng)我們訓(xùn)練出最大的視覺語言模型,并與機(jī)器人結(jié)合后,會(huì)發(fā)生什么?結(jié)果就是PaLM-E,一個(gè) 5620億參數(shù)、通用、具身的視覺語言通才——橫跨機(jī)器人、視覺和語言。

 

據(jù)論文介紹,PaLM-E是一個(gè)僅有解碼器的LLM,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補(bǔ)全。

 

其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語句。

 

經(jīng)過單個(gè)圖像提示訓(xùn)練,PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還可以生成描述圖像的語言。

 

可以說,PaLM-E展示了前所未有的靈活性和適應(yīng)性,代表著一次重大飛躍,特別是人機(jī)交互領(lǐng)域。

 

更重要的是,研究人員證明,通過在多個(gè)機(jī)器人和一般視覺語言的不同混合任務(wù)組合進(jìn)行訓(xùn)練,可以帶來從視覺語言轉(zhuǎn)移到具身決策的幾種方法,讓機(jī)器人規(guī)劃任務(wù)時(shí)能夠有效地利用數(shù)據(jù)。

 

除此之外,PaLM-E尤為突出的一點(diǎn)在于,擁有強(qiáng)大的正遷移能力。

 

在不同領(lǐng)域訓(xùn)練的PaLM-E,包括互聯(lián)網(wǎng)規(guī)模的一般視覺-語言任務(wù),與執(zhí)行單一任務(wù)機(jī)器人模型相比,性能明顯提高。

 

而在模型尺度上,研究人員則觀察到了一個(gè)顯著的優(yōu)勢(shì)。

 

語言模型越大,在視覺語言與機(jī)器人任務(wù)的訓(xùn)練中,保持的語言能力就越強(qiáng)。

 

從模型規(guī)模來看,5620億參數(shù)的PaLM-E幾乎保持了它所有的語言能力。

 

盡管只在單個(gè)圖像進(jìn)行訓(xùn)練,但PaLM-E在多模態(tài)思維鏈推理和多圖像推理等任務(wù)中表現(xiàn)出突出的能力。

 

在OK-VQA基準(zhǔn)上,PaLM-E取得了新的SOTA。

 

測(cè)評(píng)結(jié)果

 

在測(cè)試中,研究人員展示了如何使用PaLM-E在兩個(gè)不同實(shí)體上執(zhí)行規(guī)劃以及長(zhǎng)跨度的任務(wù)。

 

值得注意的是,所有這些結(jié)果都是使用基于相同數(shù)據(jù)訓(xùn)練的相同模型獲得的。

 

在以前,機(jī)器人通常需要人工的協(xié)助才能完成長(zhǎng)跨度任務(wù)。但現(xiàn)在,PaLM-E通過自主學(xué)習(xí)就可以搞定了。

 

比如,“從抽屜里拿出薯片”這類指令中,就包括了多個(gè)計(jì)劃步驟,以及來自機(jī)器人攝像頭的視覺反饋。

 

經(jīng)過端到端訓(xùn)練的PaLM-E,可以直接從像素開始對(duì)機(jī)器人進(jìn)行規(guī)劃。由于模型被集成到一個(gè)控制回路中,所以機(jī)器人在拿薯片的過程中,對(duì)途中的干擾都有魯棒性。

 

人類:給我來點(diǎn)薯片。

 

機(jī)器人:1. 走到抽屜旁;2. 打開最上面的抽屜;3. 從最上面的抽屜里拿起綠色的薯片;4.放在柜臺(tái)上。

 

同樣,讓機(jī)器人去拿一個(gè)蘋果時(shí),給出圖片后,機(jī)器人執(zhí)行任務(wù)步驟如下——

 

人類:給我拿一個(gè)蘋果。

 

機(jī)器人:1. 走向蘋果;2. 拿起蘋果;3. 把它拿給操作員;4. 放下蘋果;5. 完成。

 

除了執(zhí)行長(zhǎng)跨度任務(wù),PaLM-E可以讓機(jī)器人執(zhí)行規(guī)劃任務(wù),比如排列積木。

 

研究人員根據(jù)視覺和語言輸入成功地進(jìn)行多階段的計(jì)劃,并結(jié)合了長(zhǎng)時(shí)間范圍的視覺反饋,進(jìn)而讓模型能夠成功地規(guī)劃一個(gè)長(zhǎng)周期的任務(wù)“將積木按顏色分類到不同的角落”。

 

如下,在排列組合上,機(jī)器人化身為多面手,按顏色將積木排序。

 

模型的泛化方面,PaLM- E控制的機(jī)器人可以把紅色積木移到咖啡杯的旁邊。

 

值得一提的是,數(shù)據(jù)集只包含有咖啡杯的三個(gè)演示,但其中沒有一個(gè)包括紅色的積木塊。

 

類似的,雖然模型此前從未見過烏龜,但照樣可以順利地把綠色積木推到烏龜旁邊。

 

在零樣本推理方面,PaLM-E可以在給定圖像的情況下講述笑話,并展示了包括感知,基于視覺的對(duì)話和計(jì)劃在內(nèi)的能力。

 

多張圖的關(guān)系,PaLM-E也整得很明白,比如圖一(左)在圖二(右)的哪個(gè)位置。

 

此外,PaLM-E還可以在給定帶有手寫數(shù)字的圖像執(zhí)行數(shù)學(xué)運(yùn)算。

 

比如,如下手寫餐館的菜單圖,2張披薩需要多少錢,PaLM-E就直接給算出來了。

 

以及一般的QA和標(biāo)注等多種任務(wù)。

 

最后,研究結(jié)果還表明,凍結(jié)語言模型是通向完全保留其語言能力的通用具身多模態(tài)模型的可行之路。

 

但同時(shí),研究人員還發(fā)現(xiàn)了一條解凍模型的替代路線,即擴(kuò)大語言模型的規(guī)??梢燥@著減少災(zāi)難性遺忘。

 

版權(quán)說明:
本文僅代表作者個(gè)人觀點(diǎn),版權(quán)歸原創(chuàng)者所有。部分圖片源自網(wǎng)絡(luò),未能核實(shí)歸屬。本文僅為分享,不為商業(yè)用途。若錯(cuò)標(biāo)或侵權(quán),請(qǐng)與我們聯(lián)系刪除。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com