安全防護(hù)層層加碼幌蚊,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售
AlphaGo 真的要去打星際了?DeepMind 用星際爭(zhēng)霸訓(xùn)練 AI
人工智能不下圍棋改玩電競(jìng)。
在征服了雅達(dá)利游戲,以及圍棋選手李世石和柯潔之后饿这,Google 旗下的人工智能實(shí)驗(yàn)室 DeepMind 將眼光瞄向了更高的挑戰(zhàn) —— 星際爭(zhēng)霸浊伙。
事實(shí)上,星際爭(zhēng)霸的游戲方式非常適合 DeepMind 訓(xùn)練人工智能的記憶长捧、計(jì)劃等高級(jí)的技能嚣鄙。自去年 AlphaGo 打敗李世石之后,DeepMind 就和星際爭(zhēng)霸的創(chuàng)造者暴雪游戲公司達(dá)成合作串结,用游戲訓(xùn)練 AI哑子。今天,用于訓(xùn)練 AI 系統(tǒng)的軟件在 Deep Mind 官網(wǎng)上發(fā)布了出來肌割。
這個(gè)叫做 SC2LE 的軟件主要包括一套用于加速 AI 在星際爭(zhēng)霸的訓(xùn)練的工具卧蜓,具體內(nèi)容如下:
- 由暴雪公司開發(fā)的機(jī)器學(xué)習(xí) API,幫助開發(fā)者和研究人員參與到星際爭(zhēng)霸游戲中
- 一個(gè)匿名的游戲數(shù)據(jù)集
- 開源的 DeepMind 工具集 PySC2把敞,可以讓研究人員非常容易地使用暴雪游戲的 API
- 一系列簡(jiǎn)單的增強(qiáng)學(xué)習(xí)迷你游戲弥奸,用于測(cè)試 AI 系統(tǒng)特定的功能和任務(wù)
- 一些研究論文,幫助開發(fā)者了解整個(gè)游戲環(huán)境奋早,報(bào)告迷你游戲的測(cè)試結(jié)果等
SC2LE 軟件工具包能夠讓 AI 系統(tǒng)像人類玩家一樣玩游戲盛霎,也就是說,AI 系統(tǒng)和人類玩家有著相同的約束條件耽装,比如開局時(shí)無法看到游戲的全地圖愤炸、無法快速點(diǎn)擊鼠標(biāo)。這就要求 AI 系統(tǒng)通過不斷地試錯(cuò)來進(jìn)行學(xué)習(xí)掉奄, 或者叫做「增強(qiáng)學(xué)習(xí)」规个。
為什么星際爭(zhēng)霸可以用來訓(xùn)練 AI 系統(tǒng)呢?
在計(jì)算的精度和速度上,計(jì)算機(jī)遠(yuǎn)超人類绰姻,但是在更高層級(jí)的「抽象思維」能力上枉侧,計(jì)算機(jī)短時(shí)間內(nèi)還無法達(dá)到人類的水平引瀑,而電子游戲就是訓(xùn)練計(jì)算機(jī)「抽象思維」的重要工具狂芋。星際爭(zhēng)霸被玩家們稱作最難的即時(shí)戰(zhàn)略游戲,該游戲的搜索和決策空間比圍棋大了多個(gè)數(shù)量級(jí)憨栽,AI 在進(jìn)行訓(xùn)練時(shí)不僅要考慮戰(zhàn)斗策略帜矾,環(huán)境探索,建筑和技能升級(jí)屑柔,還要考慮資源的搜集和分配等因素屡萤。另外,游戲早期所采用的生產(chǎn)和戰(zhàn)斗策略不一定會(huì)立即產(chǎn)生效果掸宛,所以游戲玩家必須做好長期的戰(zhàn)略規(guī)劃死陆,這對(duì) AI 來說是個(gè)不小的挑戰(zhàn)。
DeepMind 研究員唧瘾,同時(shí)也是星際爭(zhēng)霸頂級(jí)玩家的 Oriol Vinyals 說:「游戲提供的一個(gè)很有趣的機(jī)制叫做『戰(zhàn)斗迷霧』措译,它迫使玩家探索地圖,找到敵人的位置饰序,分析敵人的發(fā)展?fàn)顩r领虹。對(duì)于人類玩家來說,『探索地圖』這樣的游戲方式已經(jīng)習(xí)以為常求豫,但對(duì) AI 來講就不一定 塌衰,AI 需要不斷地學(xué)習(xí)才能形成一種常識(shí),這樣的挑戰(zhàn)在之前的圍棋大戰(zhàn)是不存在的蝠嘉∽罱」
對(duì)于 AI 的訓(xùn)練,DeepMind 希望通過一系列的「迷你游戲」蚤告,將整個(gè)游戲分解成多個(gè)可管理的努酸,簡(jiǎn)單的機(jī)制進(jìn)行訓(xùn)練,比如收集資源罩缴、游戲單位的移動(dòng)蚊逢、造房子等,然后從中來評(píng)估 AI 的訓(xùn)練結(jié)果箫章。
根據(jù) DeepMind 的初步調(diào)查顯示烙荷,AI 在這些迷你游戲中表現(xiàn)良好。但在一場(chǎng)完整的游戲比賽中檬寂,再強(qiáng)大的 AI 系統(tǒng)也無法完成一場(chǎng)最簡(jiǎn)單的星際爭(zhēng)霸比賽终抽,DeepMind 表示,他們將繼續(xù)優(yōu)化訓(xùn)練方法,爭(zhēng)取在深度增強(qiáng)學(xué)習(xí)領(lǐng)域有所突破昼伴。
DeepMind 和暴雪的訓(xùn)練正在進(jìn)行中匾旭,但是已經(jīng)有專業(yè)玩家對(duì)「人機(jī)大戰(zhàn)」表示興趣十足。韓國星際電競(jìng)選手卞玄宇說:「我不認(rèn)為現(xiàn)在的人工智能在星際爭(zhēng)霸上能夠打敗一位專業(yè)的玩家圃郊,至少在我有生之年內(nèi)不會(huì)价涝。」
計(jì)算機(jī)不斷采用新的方式來解決問題持舆,并形成一種「常識(shí)」色瘩,這是一件很有挑戰(zhàn)性,也很有意思的事情逸寓,它有可能會(huì)給世人帶來很多驚喜居兆。不過,作為一名 AI 和電子游戲的愛好者竹伸,我期待著人類玩家和人工智能在星際爭(zhēng)霸上對(duì)決的那天泥栖。