欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

谷歌又放大招了，能干翻ChatGPT么？

商界觀察

2023-03-09

大語言模型的飛速“變異”，讓人類社會(huì)的走向越來越科幻了。點(diǎn)亮這棵科技樹后，“終結(jié)者”的現(xiàn)實(shí)仿佛離我們?cè)絹碓浇?/span>

前幾天，微軟剛宣布了一個(gè)實(shí)驗(yàn)框架，能用ChatGPT來控制機(jī)器人和無人機(jī)。

谷歌當(dāng)然也不甘其后，在周一，來自谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大視覺語言模型——PaLM-E。

作為一種多模態(tài)具身視覺語言模型（VLM），PaLM-E不僅可以理解圖像，還能理解、生成語言，而且竟然還能將兩者結(jié)合起來，處理復(fù)雜的機(jī)器人指令。

此外，通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結(jié)合，PaLM-E最終的參數(shù)量高達(dá)5620億。

橫跨機(jī)器人、視覺-語言領(lǐng)域的“通才”模型

PaLM-E，全稱Pathways Language Model with Embodied，是一種具身視覺語言模型。

它的強(qiáng)大之處在于，能夠利用視覺數(shù)據(jù)來增強(qiáng)其語言處理能力。

當(dāng)我們訓(xùn)練出最大的視覺語言模型，并與機(jī)器人結(jié)合后，會(huì)發(fā)生什么？結(jié)果就是PaLM-E，一個(gè) 5620億參數(shù)、通用、具身的視覺語言通才——橫跨機(jī)器人、視覺和語言。

據(jù)論文介紹，PaLM-E是一個(gè)僅有解碼器的LLM，在給定前綴（prefix）或提示（prompt）下，能夠以自回歸方式生成文本補(bǔ)全。

其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語句。

經(jīng)過單個(gè)圖像提示訓(xùn)練，PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù)，還可以生成描述圖像的語言。

可以說，PaLM-E展示了前所未有的靈活性和適應(yīng)性，代表著一次重大飛躍，特別是人機(jī)交互領(lǐng)域。

更重要的是，研究人員證明，通過在多個(gè)機(jī)器人和一般視覺語言的不同混合任務(wù)組合進(jìn)行訓(xùn)練，可以帶來從視覺語言轉(zhuǎn)移到具身決策的幾種方法，讓機(jī)器人規(guī)劃任務(wù)時(shí)能夠有效地利用數(shù)據(jù)。

除此之外，PaLM-E尤為突出的一點(diǎn)在于，擁有強(qiáng)大的正遷移能力。

在不同領(lǐng)域訓(xùn)練的PaLM-E，包括互聯(lián)網(wǎng)規(guī)模的一般視覺-語言任務(wù)，與執(zhí)行單一任務(wù)機(jī)器人模型相比，性能明顯提高。

而在模型尺度上，研究人員則觀察到了一個(gè)顯著的優(yōu)勢(shì)。

語言模型越大，在視覺語言與機(jī)器人任務(wù)的訓(xùn)練中，保持的語言能力就越強(qiáng)。

從模型規(guī)模來看，5620億參數(shù)的PaLM-E幾乎保持了它所有的語言能力。

盡管只在單個(gè)圖像進(jìn)行訓(xùn)練，但PaLM-E在多模態(tài)思維鏈推理和多圖像推理等任務(wù)中表現(xiàn)出突出的能力。

在OK-VQA基準(zhǔn)上，PaLM-E取得了新的SOTA。

測(cè)評(píng)結(jié)果

在測(cè)試中，研究人員展示了如何使用PaLM-E在兩個(gè)不同實(shí)體上執(zhí)行規(guī)劃以及長(zhǎng)跨度的任務(wù)。

值得注意的是，所有這些結(jié)果都是使用基于相同數(shù)據(jù)訓(xùn)練的相同模型獲得的。

在以前，機(jī)器人通常需要人工的協(xié)助才能完成長(zhǎng)跨度任務(wù)。但現(xiàn)在，PaLM-E通過自主學(xué)習(xí)就可以搞定了。

比如，“從抽屜里拿出薯片”這類指令中，就包括了多個(gè)計(jì)劃步驟，以及來自機(jī)器人攝像頭的視覺反饋。

經(jīng)過端到端訓(xùn)練的PaLM-E，可以直接從像素開始對(duì)機(jī)器人進(jìn)行規(guī)劃。由于模型被集成到一個(gè)控制回路中，所以機(jī)器人在拿薯片的過程中，對(duì)途中的干擾都有魯棒性。

人類：給我來點(diǎn)薯片。

機(jī)器人：1. 走到抽屜旁；2. 打開最上面的抽屜；3. 從最上面的抽屜里拿起綠色的薯片；4.放在柜臺(tái)上。

同樣，讓機(jī)器人去拿一個(gè)蘋果時(shí)，給出圖片后，機(jī)器人執(zhí)行任務(wù)步驟如下——

人類：給我拿一個(gè)蘋果。

機(jī)器人：1. 走向蘋果；2. 拿起蘋果；3. 把它拿給操作員；4. 放下蘋果；5. 完成。

除了執(zhí)行長(zhǎng)跨度任務(wù)，PaLM-E可以讓機(jī)器人執(zhí)行規(guī)劃任務(wù)，比如排列積木。

研究人員根據(jù)視覺和語言輸入成功地進(jìn)行多階段的計(jì)劃，并結(jié)合了長(zhǎng)時(shí)間范圍的視覺反饋，進(jìn)而讓模型能夠成功地規(guī)劃一個(gè)長(zhǎng)周期的任務(wù)“將積木按顏色分類到不同的角落”。

如下，在排列組合上，機(jī)器人化身為多面手，按顏色將積木排序。

模型的泛化方面，PaLM- E控制的機(jī)器人可以把紅色積木移到咖啡杯的旁邊。

值得一提的是，數(shù)據(jù)集只包含有咖啡杯的三個(gè)演示，但其中沒有一個(gè)包括紅色的積木塊。

類似的，雖然模型此前從未見過烏龜，但照樣可以順利地把綠色積木推到烏龜旁邊。

在零樣本推理方面，PaLM-E可以在給定圖像的情況下講述笑話，并展示了包括感知，基于視覺的對(duì)話和計(jì)劃在內(nèi)的能力。

多張圖的關(guān)系，PaLM-E也整得很明白，比如圖一（左）在圖二（右）的哪個(gè)位置。

此外，PaLM-E還可以在給定帶有手寫數(shù)字的圖像執(zhí)行數(shù)學(xué)運(yùn)算。

比如，如下手寫餐館的菜單圖，2張披薩需要多少錢，PaLM-E就直接給算出來了。

以及一般的QA和標(biāo)注等多種任務(wù)。

最后，研究結(jié)果還表明，凍結(jié)語言模型是通向完全保留其語言能力的通用具身多模態(tài)模型的可行之路。

但同時(shí)，研究人員還發(fā)現(xiàn)了一條解凍模型的替代路線，即擴(kuò)大語言模型的規(guī)?？梢燥@著減少災(zāi)難性遺忘。

版權(quán)說明：
本文僅代表作者個(gè)人觀點(diǎn)，版權(quán)歸原創(chuàng)者所有。部分圖片源自網(wǎng)絡(luò)，未能核實(shí)歸屬。本文僅為分享，不為商業(yè)用途。若錯(cuò)標(biāo)或侵權(quán)，請(qǐng)與我們聯(lián)系刪除。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

空調(diào)開年格局生變：從“雙寡頭”走向“三分天下”

拼多多短視頻，向“抖快”討經(jīng)

我國物流市場(chǎng)規(guī)模連續(xù)7年位居全球第一

甜啦啦圣代家族，直擊消費(fèi)新生代

蘋果打開了魔盒，大模型附體老手機(jī)，誰先終結(jié)誰？

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<ol id="hq5ra"><form id="hq5ra"></form></ol>

<dd id="hq5ra"></dd>

<ol id="hq5ra"></ol>