2017-05-18

OpenAI 公布突破性新算法：可通過 VR 培養(yǎng)機(jī)器人模擬學(xué)習(xí)

只用一次演示就可以教會機(jī)器人工作宅此。

OpenAI 是由特斯拉 CEO Elon Musk 聯(lián)合 LinkedIn 創(chuàng)始人 Reid Hoffman 及 PayPal 創(chuàng)始人 Peter Thiel 等人共同創(chuàng)立的一家非盈利的研究實(shí)驗(yàn)室垒棋，其在昨天宣布了其機(jī)器人研究工作的一座新里程碑—— 一款被命名為單次模擬學(xué)習(xí)（One-Shot Imitation Learning）的開源 AI 學(xué)習(xí)框架。在它的幫助下偏螺，只需要人類在 VR 中演示一次任務(wù)行疏，讓機(jī)器人學(xué)習(xí)它，機(jī)器人就可以在真實(shí)環(huán)境里完成任務(wù)套像。

在上個月酿联，OpenAI 就展示了這個機(jī)器人的早期版本，他們使用域隨機(jī)化算法（domain randomization）對其視覺系統(tǒng)進(jìn)行了訓(xùn)練夺巩。而本次發(fā)布的模擬學(xué)習(xí)系統(tǒng)則包含兩個單獨(dú)的神經(jīng)網(wǎng)絡(luò)算法系統(tǒng)：

第一個是視覺網(wǎng)絡(luò)贞让，通過分析機(jī)器人相機(jī)中的圖像，以確定物體在現(xiàn)實(shí)中的位置柳譬。盡管機(jī)器人從未接觸過真實(shí)的桌子或木塊喳张，但研究人員會使用數(shù)十萬個模擬圖像來訓(xùn)練它們產(chǎn)生認(rèn)知，每個模擬圖像都會根據(jù)顏色美澳、紋理销部、背景等各項(xiàng)特征進(jìn)行排列。
第二個是仿真網(wǎng)絡(luò)人柿，機(jī)器人通過觀察人類如何演示任務(wù)來理解任務(wù)意圖柴墩，然后在現(xiàn)實(shí)世界中模仿完成任務(wù)。需要說明的是凫岖，機(jī)器人會在模仿網(wǎng)絡(luò)中進(jìn)行上千次的虛擬演示的培訓(xùn)江咳，而不需人要在現(xiàn)實(shí)環(huán)境中操作它。

觀看一遍演示之后哥放，機(jī)器人就可以在現(xiàn)實(shí)環(huán)境中進(jìn)行任務(wù)模擬了歼指。下面是原理演示視頻：

正如上面視頻中所看到的，OpenAI 正在嘗試教一個機(jī)器手臂如何堆疊一系列彩色立方體塊甥雕。戴著 VR 眼鏡的人首先在虛擬環(huán)境中手動執(zhí)行任務(wù)踩身，然后，OpenAI 的視覺網(wǎng)絡(luò)開始觀察并分析動作社露，在數(shù)十萬個模擬圖像上對機(jī)器人進(jìn)行訓(xùn)練挟阻。這部分過程的重點(diǎn)是使用模擬數(shù)據(jù)與不斷變化的變量來訓(xùn)練AI。因?yàn)槭占鎸?shí)世界的圖像十分密集且耗費(fèi)時間，因此采用與現(xiàn)實(shí)相似的虛擬數(shù)據(jù)來訓(xùn)練機(jī)器人效果反而會更好附鸽。

OpenAI 的算法接著將從視覺網(wǎng)絡(luò)中收集的信息傳送到仿真網(wǎng)絡(luò)脱拼，來指導(dǎo)機(jī)器人手臂進(jìn)行動作。仿真網(wǎng)絡(luò)可以推理任務(wù)的意圖坷备，并通過預(yù)測人類演員在類似情況下的反應(yīng)來進(jìn)行模擬熄浓。棘手的部分是，每個立體塊的彩色和排列順序都是不同的省撑，而且塊的初始放置位置坐標(biāo)不固定赌蔑。而一次學(xué)習(xí)系統(tǒng)的優(yōu)勢在于，不管立體塊的初始位置如何不同竟秫，只要能確定最終的堆疊順序娃惯，機(jī)器人就能成功完成任務(wù)。

所有這一切只使用模擬數(shù)據(jù)鸿摇，而不是通過顯示機(jī)器人視頻或真實(shí)世界的例子的照片石景。OpenAI 技術(shù)人員的成員 Josh Tobin 對此解釋說：「我們的機(jī)器人現(xiàn)在已經(jīng)學(xué)會了執(zhí)行任務(wù)劈猿，通過一個單一的任務(wù)演示拙吉，我們可以在許多不同的初始條件下實(shí)現(xiàn)任務(wù)。教授機(jī)器人如何構(gòu)建不同的塊安排揪荣，只需要一次額外的演示筷黔。」

這里的長期目標(biāo)是讓 AI 有能力快速學(xué)習(xí)新行為仗颈，并使用這些知識來適應(yīng)環(huán)境中不可預(yù)測的變化佛舱。 Tobin 說：「模仿讓人類快速學(xué)習(xí)新的行為，我們希望機(jī)器人能像嬰兒一樣有能力模仿別人做的事情挨决∏胱妫」

OpenAI 是地球上最強(qiáng)的人工智能研究團(tuán)隊之一，致力于進(jìn)行非監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的研究脖祈。OpenAI 的使命和長期目標(biāo)是以將最大限度地造福全人類的方式發(fā)展人工智能肆捕。

「機(jī)器人 + VR」還能誕生哪些創(chuàng)意

虛擬現(xiàn)實(shí)和機(jī)器人都是時下科技界非常流行的詞匯。OpenAI 用 AR 來訓(xùn)練機(jī)器人進(jìn)行工作盖高，那么兩者結(jié)合一起還會產(chǎn)生哪些創(chuàng)意呢慎陵？近日，美國的一家創(chuàng)業(yè)公司 Double Robotics 就在研究VR+機(jī)器人的策略喻奥，將其公司的遠(yuǎn)程視頻機(jī)器人可控制攝像機(jī)拍攝 VR 視頻席纽。

美國極客圈最近也很流行把非常有趣的 VR 體驗(yàn)與真實(shí)世界的 3D 打印、開源電子元器件設(shè)計撞蚕、軟件開發(fā)以及機(jī)器人自動控制嫁接在一起润梯。比如硅谷一家創(chuàng)意公司 219 Design的研究人員使用 HTC Vive 頭顯控制一臺機(jī)器人手臂。他們使用一個 VR App 進(jìn)行實(shí)時控制機(jī)器人手臂的精細(xì)動作，也可以讓機(jī)器人手柄重復(fù)事先錄制好的運(yùn)動軌跡纺铭。　　

該團(tuán)隊的 Dave Bim-Merle 表示抒和，這個項(xiàng)目目前只是證明了一個產(chǎn)品設(shè)計概念，把 VR 與機(jī)器人控制相結(jié)合彤蔽。你可以想象一下摧莽，這種產(chǎn)品設(shè)計理念可以用在水下機(jī)器人控制、災(zāi)后救援機(jī)器人和戰(zhàn)場拆彈機(jī)器人等應(yīng)用場景顿痪。

除了一些創(chuàng)業(yè)公司镊辕，工業(yè)機(jī)器人巨頭 ABB 也曾在去年上海工博會上展出過一套 VR 教學(xué)系統(tǒng)。學(xué)員通過戴上 VR 眼鏡蚁袭，就可以進(jìn)入一套虛擬的工廠 VR 情景征懈，并可觀看機(jī)器人在流水線上的工作細(xì)節(jié)，幫助學(xué)員了解實(shí)際的工業(yè)場景揩悄。

機(jī)器人

深圳灣（微信公眾號 ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體卖哎，關(guān)注「軟件+硬件」帶來的場景和交互創(chuàng)新，以及與平臺和應(yīng)用相連的產(chǎn)業(yè)鏈升級删性。

版權(quán)聲明：本文系深圳灣原創(chuàng)亏娜，轉(zhuǎn)載或摘錄請先獲得授權(quán)。
深圳灣微信公眾號：shenzhenware蹬挺。深圳灣同時在頭條號维贺、企鵝號、知乎等主流媒體站開設(shè)專欄板塊巴帮，歡迎關(guān)注溯泣。轉(zhuǎn)載、約稿榕茧、投稿垃沦、團(tuán)隊報道請在公眾號對話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：發(fā)布 Android Things用押、快速搶占 IoT 市場肢簿，Google 的下一步棋怎么走丨Google I/O 2017

下一篇：阿里入局 AI+AR 眼鏡，為雷鳥創(chuàng)新獨(dú)家定制眼鏡版大模型