AlphaGo 真的要去打星際了功舀？DeepMind 用星際爭(zhēng)霸訓(xùn)練 AI

Uploads%2farticles%2f11731%2fcyclone protoss large

2017-08-11

AlphaGo 真的要去打星際了？DeepMind 用星際爭(zhēng)霸訓(xùn)練 AI

人工智能不下圍棋改玩電競(jìng)。

在征服了雅達(dá)利游戲，以及圍棋選手李世石和柯潔之后饿这，Google 旗下的人工智能實(shí)驗(yàn)室 DeepMind 將眼光瞄向了更高的挑戰(zhàn) —— 星際爭(zhēng)霸浊伙。

事實(shí)上，星際爭(zhēng)霸的游戲方式非常適合 DeepMind 訓(xùn)練人工智能的記憶长捧、計(jì)劃等高級(jí)的技能嚣鄙。自去年 AlphaGo 打敗李世石之后，DeepMind 就和星際爭(zhēng)霸的創(chuàng)造者暴雪游戲公司達(dá)成合作串结，用游戲訓(xùn)練 AI哑子。今天，用于訓(xùn)練 AI 系統(tǒng)的軟件在 Deep Mind 官網(wǎng)上發(fā)布了出來肌割。

這個(gè)叫做 SC2LE 的軟件主要包括一套用于加速 AI 在星際爭(zhēng)霸的訓(xùn)練的工具卧蜓，具體內(nèi)容如下：

由暴雪公司開發(fā)的機(jī)器學(xué)習(xí) API，幫助開發(fā)者和研究人員參與到星際爭(zhēng)霸游戲中
一個(gè)匿名的游戲數(shù)據(jù)集
開源的 DeepMind 工具集 PySC2把敞，可以讓研究人員非常容易地使用暴雪游戲的 API
一系列簡(jiǎn)單的增強(qiáng)學(xué)習(xí)迷你游戲弥奸，用于測(cè)試 AI 系統(tǒng)特定的功能和任務(wù)
一些研究論文，幫助開發(fā)者了解整個(gè)游戲環(huán)境奋早，報(bào)告迷你游戲的測(cè)試結(jié)果等

SC2LE 軟件工具包能夠讓 AI 系統(tǒng)像人類玩家一樣玩游戲盛霎，也就是說，AI 系統(tǒng)和人類玩家有著相同的約束條件耽装，比如開局時(shí)無法看到游戲的全地圖愤炸、無法快速點(diǎn)擊鼠標(biāo)。這就要求 AI 系統(tǒng)通過不斷地試錯(cuò)來進(jìn)行學(xué)習(xí)掉奄，或者叫做「增強(qiáng)學(xué)習(xí)」规个。

為什么星際爭(zhēng)霸可以用來訓(xùn)練 AI 系統(tǒng)呢？

在計(jì)算的精度和速度上，計(jì)算機(jī)遠(yuǎn)超人類绰姻，但是在更高層級(jí)的「抽象思維」能力上枉侧，計(jì)算機(jī)短時(shí)間內(nèi)還無法達(dá)到人類的水平引瀑，而電子游戲就是訓(xùn)練計(jì)算機(jī)「抽象思維」的重要工具狂芋。星際爭(zhēng)霸被玩家們稱作最難的即時(shí)戰(zhàn)略游戲，該游戲的搜索和決策空間比圍棋大了多個(gè)數(shù)量級(jí)憨栽，AI 在進(jìn)行訓(xùn)練時(shí)不僅要考慮戰(zhàn)斗策略帜矾，環(huán)境探索，建筑和技能升級(jí)屑柔，還要考慮資源的搜集和分配等因素屡萤。另外，游戲早期所采用的生產(chǎn)和戰(zhàn)斗策略不一定會(huì)立即產(chǎn)生效果掸宛，所以游戲玩家必須做好長期的戰(zhàn)略規(guī)劃死陆，這對(duì) AI 來說是個(gè)不小的挑戰(zhàn)。

DeepMind 研究員唧瘾，同時(shí)也是星際爭(zhēng)霸頂級(jí)玩家的 Oriol Vinyals 說：「游戲提供的一個(gè)很有趣的機(jī)制叫做『戰(zhàn)斗迷霧』措译，它迫使玩家探索地圖，找到敵人的位置饰序，分析敵人的發(fā)展?fàn)顩r领虹。對(duì)于人類玩家來說，『探索地圖』這樣的游戲方式已經(jīng)習(xí)以為常求豫，但對(duì) AI 來講就不一定塌衰，AI 需要不斷地學(xué)習(xí)才能形成一種常識(shí)，這樣的挑戰(zhàn)在之前的圍棋大戰(zhàn)是不存在的蝠嘉∽罱」

對(duì)于 AI 的訓(xùn)練，DeepMind 希望通過一系列的「迷你游戲」蚤告，將整個(gè)游戲分解成多個(gè)可管理的努酸，簡(jiǎn)單的機(jī)制進(jìn)行訓(xùn)練，比如收集資源罩缴、游戲單位的移動(dòng)蚊逢、造房子等，然后從中來評(píng)估 AI 的訓(xùn)練結(jié)果箫章。

根據(jù) DeepMind 的初步調(diào)查顯示烙荷，AI 在這些迷你游戲中表現(xiàn)良好。但在一場(chǎng)完整的游戲比賽中檬寂，再強(qiáng)大的 AI 系統(tǒng)也無法完成一場(chǎng)最簡(jiǎn)單的星際爭(zhēng)霸比賽终抽，DeepMind 表示，他們將繼續(xù)優(yōu)化訓(xùn)練方法，爭(zhēng)取在深度增強(qiáng)學(xué)習(xí)領(lǐng)域有所突破昼伴。

DeepMind 和暴雪的訓(xùn)練正在進(jìn)行中匾旭，但是已經(jīng)有專業(yè)玩家對(duì)「人機(jī)大戰(zhàn)」表示興趣十足。韓國星際電競(jìng)選手卞玄宇說：「我不認(rèn)為現(xiàn)在的人工智能在星際爭(zhēng)霸上能夠打敗一位專業(yè)的玩家圃郊，至少在我有生之年內(nèi)不會(huì)价涝。」

計(jì)算機(jī)不斷采用新的方式來解決問題持舆，并形成一種「常識(shí)」色瘩，這是一件很有挑戰(zhàn)性，也很有意思的事情逸寓，它有可能會(huì)給世人帶來很多驚喜居兆。不過，作為一名 AI 和電子游戲的愛好者竹伸，我期待著人類玩家和人工智能在星際爭(zhēng)霸上對(duì)決的那天泥栖。

人工智能

DeepMind

增強(qiáng)學(xué)習(xí)

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來的場(chǎng)景和交互創(chuàng)新勋篓，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)吧享。

版權(quán)聲明：本文系深圳灣原創(chuàng)，轉(zhuǎn)載或摘錄請(qǐng)先獲得授權(quán)生巡。
深圳灣微信公眾號(hào)：shenzhenware耙蔑。深圳灣同時(shí)在頭條號(hào)、企鵝號(hào)孤荣、知乎等主流媒體站開設(shè)專欄板塊甸陌，歡迎關(guān)注。轉(zhuǎn)載盐股、約稿钱豁、投稿、團(tuán)隊(duì)報(bào)道請(qǐng)?jiān)诠娞?hào)對(duì)話框回復(fù)關(guān)鍵字并留下聯(lián)系方式疯汁。

上一篇：Anker 公布了一款只賣 35 刀的智能音箱牲尺，緊隨其后的是一套智能家居全家桶

下一篇：安全防護(hù)層層加碼，新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售