OpenAI 公布突破性新算法:可通過(guò) VR 培養(yǎng)機(jī)器人模擬學(xué)習(xí)
DeepMind 的 AI 機(jī)器人正在自學(xué)障礙跑,既奇怪又有趣
就像一個(gè)蹣跚學(xué)步的寶寶躲叼,跌倒了自己就能爬起來(lái)。
谷歌的人工智能子公司 DeepMind 最近連續(xù)發(fā)布了三篇論文枫慷,探討了如何使用「強(qiáng)化學(xué)習(xí)」的方法來(lái)教導(dǎo) AI,使它能在不熟悉或復(fù)雜的環(huán)境里自主導(dǎo)航運(yùn)動(dòng)路線。
這是一項(xiàng)在虛擬世界中對(duì)人工智能進(jìn)行的測(cè)試或听,運(yùn)動(dòng)智能(motor intelligence)學(xué)習(xí)如何控制和協(xié)調(diào)柔韌的身體在各種復(fù)雜環(huán)境中解決任務(wù)探孝,涵括了計(jì)算機(jī)動(dòng)畫(huà)(Computer animation)和生物力學(xué)(Biomechanics)等多個(gè)領(lǐng)域的知識(shí)。
有一天將這個(gè)這項(xiàng)程序加載到實(shí)體機(jī)器人身上誉裆,同樣可以驅(qū)動(dòng)機(jī)器人做出相同的反應(yīng)顿颅。下面是完整的演示視頻:
從視頻中可以看到看到,棒狀機(jī)器人會(huì)根據(jù)特殊地形做出不同的行為足丢,包括跳躍粱腻、轉(zhuǎn)向、蹲伏等智能肢體動(dòng)作斩跌。而這些動(dòng)作并不需要為其編寫(xiě)特定的計(jì)算機(jī)程序绍些,在棒狀機(jī)器人的身體與環(huán)境交互的過(guò)程中,逐漸建立最佳的行為模式耀鸦。最終機(jī)器人會(huì)在在沒(méi)有特殊指示的情況下發(fā)展出了復(fù)雜技能柬批,這一方法可被應(yīng)用于訓(xùn)練系統(tǒng)中多個(gè)不同的仿真身體。
而 DeepMind 的三篇論文袖订,也分別從三個(gè)角度探尋了 AI 如何產(chǎn)生靈活和自然行為的方法氮帐,它們將來(lái)有望于應(yīng)用在實(shí)體機(jī)器人身上進(jìn)行訓(xùn)練。
強(qiáng)化學(xué)習(xí):如何在豐富的自然環(huán)境中產(chǎn)生運(yùn)動(dòng)行為洛姑?
此前 DeepMind 的研究揪漩,可能會(huì)更多集中在算法層面的問(wèn)題,例如如何模擬人類大腦的思考活動(dòng)吏口,如何進(jìn)行決策與選擇奄容,最具代表性的研究成果就是 AlphaGo。
但是如何教會(huì)一個(gè) AI 運(yùn)動(dòng)行為呢昂勒?例如一次跳躍、翻轉(zhuǎn)與奔跑舟铜。首先戈盈,我們要解決的是該如何精準(zhǔn)的描述一個(gè)運(yùn)動(dòng)行為,在第一篇論文『Emergence of Locomotion Behaviours in Rich Environments』中谆刨,探討了如何通過(guò)一個(gè)策略梯度清華學(xué)習(xí)的全新可拓展變體塘娶,訓(xùn)練各種不同的模擬人體在不同的地形中的運(yùn)動(dòng),例如跳躍痊夭、轉(zhuǎn)向與蹲伏刁岸。
對(duì)抗模仿學(xué)習(xí):如何從動(dòng)作捕捉中學(xué)習(xí)人類行為?
當(dāng)智能體學(xué)會(huì)了基礎(chǔ)性的運(yùn)動(dòng)她我,就要開(kāi)始學(xué)習(xí)一些特性復(fù)雜的技能虹曙。例如:行走的步態(tài)迫横、從地上起身、跑步與轉(zhuǎn)彎繞過(guò)障礙物等酝碳。在第二篇論文『Learning human behaviors from motion capture by adversarial imitation』中 矾踱,DeepMind 則展示了一套可通過(guò)運(yùn)動(dòng)數(shù)據(jù)捕捉建立多個(gè)子技能策略網(wǎng)絡(luò)的方法,并使用生成對(duì)抗模仿學(xué)習(xí)訓(xùn)練通用神經(jīng)網(wǎng)絡(luò)疏哗,從而根據(jù)有限的示例生成與人類相似的動(dòng)作模式呛讲。
多行為的魯棒性模仿:如何在多種行為模式中進(jìn)行切換?
當(dāng)智能體習(xí)得各種運(yùn)動(dòng)方案后返奉,那么該如何處理兩種不同行為模式之間的切換過(guò)程圣蝎,例如從步行變?yōu)榕懿剑沟闷溥^(guò)渡自然呢衡瓶?在第三篇論文『Robust Imitation of Diverse Behaviors』中徘公,則展示了一種當(dāng)前最優(yōu)生成的神經(jīng)網(wǎng)絡(luò)架構(gòu),使得智能體能夠?qū)W習(xí)不同行為之間的關(guān)系哮针,并模擬它們產(chǎn)生具體的動(dòng)作关面。
DeepMind 研究團(tuán)隊(duì)指出,其未來(lái)的工作將主要集中在指導(dǎo)以上方案「在更為復(fù)雜的情況下協(xié)調(diào)做出更為廣泛的動(dòng)作范圍」十厢。事實(shí)上等太,單純的模擬人類行為并不是 DeepMind 團(tuán)隊(duì)的最終目的,它們只是想用創(chuàng)造性的解決方案來(lái)克服現(xiàn)有的 AI 機(jī)器人運(yùn)動(dòng)障礙蛮放,他們認(rèn)為機(jī)器人甚至可以擺脫人類的運(yùn)動(dòng)模式缩抡,創(chuàng)造出新的運(yùn)動(dòng)行為。只是大多數(shù)時(shí)候包颁,研究團(tuán)隊(duì)認(rèn)為能提供的最有效的辦法瞻想,依然不是最自然的。