剛,我們見(jiàn)證了 AI 與人類(lèi) PK 的又一次重大進(jìn)展!DeepMind 北京時(shí)間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭(zhēng)霸 2》中與2位職業(yè)選手的比賽過(guò)程:AlphaStar 5:0 戰(zhàn)勝職業(yè)選手TLO ,5:0戰(zhàn)勝 2018 年 WSC 奧斯汀站亞軍 MaNa 。與兩位人類(lèi)對(duì)手的比賽相隔約兩周,AI 自學(xué)成才,經(jīng)歷了從與 TLO 對(duì)戰(zhàn)時(shí)的菜鳥(niǎo)級(jí)別,進(jìn)化到完美操作的過(guò)程,尤其是與 MaNa 的對(duì)戰(zhàn),已經(jīng)初步顯示了可以超越人類(lèi)極限的能力。
這次的演示也是 DeepMind 的星際爭(zhēng)霸 2 AI AlphaStar 的首次公開(kāi)亮相。除了此前比賽錄像的展示外,AlphaStar 還和 MaNa 現(xiàn)場(chǎng)來(lái)了一局,不過(guò),這局AlphaStar 輸給了人類(lèi)選手 MaNa 。
圖 | MaNa 正在聚精會(huì)神比賽(圖源:Youtube)
DeepMind 在演示中介紹,雙方的比賽固定在 Catalyst LE 地圖,采用 4.6.2 游戲版本,而且只能進(jìn)行神族內(nèi)戰(zhàn),雙方將進(jìn)行 5 場(chǎng)比賽。首先接受邀請(qǐng)的是 Liquid 戰(zhàn)隊(duì)的蟲(chóng)族選手 TLO,目前世界排名 68。
圖 | TLO(圖源:Youtube)
第一場(chǎng)比賽,TLO 出現(xiàn)在 10 點(diǎn)鐘方向,AlphaStar 出現(xiàn)在 4 點(diǎn)鐘對(duì)角方向。TLO 的開(kāi)場(chǎng)非常傳統(tǒng),采用了雙兵營(yíng)封路的開(kāi)局,但 AlphaStar 并沒(méi)有封路,這一問(wèn)題被 TLO 的農(nóng)民偵查到,他果斷拍出使徒,采用了常見(jiàn)的殺農(nóng)民騷擾策略。
雖然 AlphaStar 沒(méi)有封路,直接放進(jìn)了 TLO 的使徒,但 AlphaStar 的雙兵營(yíng)也造出了使徒防守,導(dǎo)致 TLO 的第一次騷擾只殺掉了兩個(gè)農(nóng)民,剩下的使徒也無(wú)功而返。
隨后雙方都開(kāi)始補(bǔ)出追獵,TLO 開(kāi)始用先知騷擾。雙方進(jìn)行了多個(gè)小規(guī)模交戰(zhàn),幾波互換幾乎平手,AlphaStar 損失的農(nóng)民較多,TLO 損失了多個(gè)使徒。在交戰(zhàn)中,我們看到了 AlphaStar 進(jìn)行了類(lèi)似人類(lèi)的微操,一邊撤退,一邊反打 TLO 的追獵,同時(shí)利用棱鏡傳輸兵力。
圖 | AlphaStar 的視野,它可以看到全地圖戰(zhàn)爭(zhēng)迷霧之外發(fā)生了什么,然后做出決策,實(shí)現(xiàn)全局資源調(diào)度(圖源:Youtube)
不過(guò) TLO 此時(shí)的二礦剛剛建好,AlphaStar 只有單礦,將更多的經(jīng)濟(jì)轉(zhuǎn)化成了兵力,因此 AlphaStar 爆出了更多的追獵,直接選擇進(jìn)攻二礦,TLO 的追獵寡不敵眾,在主力兵力被殲滅后打出 GG。
第一局以 DeepMind 的勝出為結(jié)果,我們看到了 AlphaStar 的一些不同尋常做法,比如不選擇互相騷擾農(nóng)民,而是直接用兵力防守,然后發(fā)現(xiàn) TLO 拍下二礦之后,在正面戰(zhàn)場(chǎng)用一定數(shù)量的追獵持續(xù)壓制。
由于時(shí)間限制,演示中并沒(méi)有播放所有比賽,而是在展示了另外一局比賽錄像后,給出了 TLO 五局全敗的戰(zhàn)績(jī)。不過(guò)所有的錄像都將在 DeepMind 官網(wǎng)上放出,供人下載。
TLO 在演示中表示,他覺(jué)得自己還是可以贏的,如果能夠有更多的訓(xùn)練時(shí)間,對(duì) AlphaStar 有更多的了解,是一定可以找到 AlphaStar 弱點(diǎn),然后獲勝的。
隨后登場(chǎng)的是 Liquid 戰(zhàn)隊(duì) MaNa,作為排名 19 的神族選手,他比 TLO 更加強(qiáng)大。如果 AlphaStar 可以戰(zhàn)勝他,那將說(shuō)明 AlphaStar 真的具備了人類(lèi)頂尖選手的實(shí)力。
圖 | AlphaStar 和人類(lèi)選手的 APM 并沒(méi)有太大區(qū)別(圖源:Youtube)
與 MaNa 的第一局,雙方都是“常規(guī)”開(kāi)局,MaNa 封路,AlphaStar 沒(méi)有封路。不過(guò) AlphaStar 采取了變種戰(zhàn)略,選擇在 MaNa 基地附近放下水晶,拍下兩個(gè)兵營(yíng),準(zhǔn)備利用兵營(yíng)距離的優(yōu)勢(shì)進(jìn)攻。MaNa 此時(shí)還在按照人類(lèi)的思路,利用使徒騷擾農(nóng)民。
在 AlphaStar 兵營(yíng)快完成的時(shí)候,被 MaNa 發(fā)現(xiàn),他果斷采取了防守措施,在高坡建造了兩個(gè)充電站,準(zhǔn)備利用封路和高坡的優(yōu)勢(shì)防守即將到來(lái)的追獵大軍。按照 MaNa 的想法,“正常的人類(lèi)選手是不會(huì)走上那個(gè)高坡的”。
但是 AlphaStar 并不是人類(lèi),它猶豫兩次之后選擇直接攻上高地,由于追獵數(shù)量碾壓 MaNa,野兵營(yíng)還在源源不斷地輸出追獵,因此充電站幾乎沒(méi)有效果,幾輪點(diǎn)射之后,MaNa 的追獵所剩無(wú)幾,最終拉出所有農(nóng)民也沒(méi)能挽回?cái)【郑媸 ?/p>
在隨后的兩局錄像復(fù)盤(pán)中,我們看到了 AlphaStar 的強(qiáng)大微操和戰(zhàn)術(shù)思路,它會(huì)學(xué)習(xí)和嘗試人類(lèi)的封路戰(zhàn)術(shù),生產(chǎn)額外的農(nóng)民緩解騷擾帶來(lái)的影響。在一局比賽中,我們看到了 AlphaStar 使用了純追獵戰(zhàn)術(shù),僅靠強(qiáng)大的微操對(duì)抗 MaNa 的追獵、不朽和叉子組合的混合軍隊(duì)。
圖 | 實(shí)時(shí)戰(zhàn)局(圖源:Youtube)
AlphaStar 將 30 多個(gè)追獵分成 2-3 組,從 3 個(gè)方向包夾 MaNa 的進(jìn)攻部隊(duì),然后靠閃爍躲避 9 個(gè)不朽的攻擊,這種非人類(lèi)的操作徹底摧毀了 MaNa 的操作空間——無(wú)論他建造多少個(gè)不朽,都沒(méi)有辦法抵抗追獵大軍。“這種情況在同水平人類(lèi)對(duì)局中完全不會(huì)出現(xiàn),”MaNa 在演講中無(wú)奈地說(shuō)道。
最終 MaNa 也以 0-5 的成績(jī)敗北,人類(lèi)與 AlphaStar 的 10 局比賽結(jié)果全是失敗。
不過(guò)在演示直播中,DeepMind 似乎有些膨脹,選擇與 MaNa 進(jìn)行了一場(chǎng)即時(shí)表演賽,后者也表示,自己要為 Liquid 戰(zhàn)隊(duì)正名,捍衛(wèi)戰(zhàn)隊(duì)和人類(lèi)的榮譽(yù)。
雙方常規(guī)開(kāi)局,在前期并沒(méi)有進(jìn)行大規(guī)模交戰(zhàn)。但 MaNa 顯然是有備而來(lái),沒(méi)有使用使徒和先知騷擾,而是專(zhuān)注于偵查和攀升科技。在發(fā)現(xiàn) AlphaStar 依舊生產(chǎn)了茫茫多追獵后,MaNa 采用了棱鏡運(yùn)輸不朽的騷擾戰(zhàn)術(shù),同時(shí)補(bǔ)出不朽、叉子和執(zhí)政官等混合部隊(duì)。這可謂是整場(chǎng)比賽的神來(lái)之筆。
圖 | 三個(gè)先知圍著棱鏡看熱鬧(圖源:Youtube)
在空投不朽騷擾農(nóng)民時(shí),AlphaStar 并沒(méi)有選擇補(bǔ)出鳳凰打擊棱鏡,而是用不能攻擊空中單位的先知跟蹤棱鏡,輔以數(shù)十個(gè)追獵來(lái)回往返前線和家中。看起來(lái),它認(rèn)為追獵可以對(duì)空攻擊,因此不需要補(bǔ)出鳳凰,而且似乎所有追獵都在一個(gè)分組內(nèi),沒(méi)有分批分別執(zhí)行進(jìn)攻和防守任務(wù)。
于是我們看到了人類(lèi)玩家對(duì)抗 AI 的典型方法:逼迫后者陷入循環(huán)執(zhí)行某種任務(wù)的怪圈,使其浪費(fèi)巨額時(shí)間和資源,無(wú)法形成有效的局勢(shì)判斷。
就這樣,MaNa 消耗到了自己的兵力成型,然后一波壓制直接瓦解了 AlphaStar 的純追獵部隊(duì)。后者還嘗試?yán)冒鼕A的戰(zhàn)術(shù)阻擋 MaNa,但這一次 MaNa 的兵力充足,不朽對(duì)追獵的克制十分明顯,沒(méi)有留給 AlphaStar 一絲操作的機(jī)會(huì),全殲對(duì)手,獲得了寶貴的勝利。
圖 | MaNa 獲得表演賽勝利,露出了迷之微笑(圖源:Youtube)
雖然 TLO 和 MaNa 的錄像以全敗告終,宣告了 DeepMind AlphaStar 的實(shí)力已經(jīng)不可同日而語(yǔ),但這場(chǎng)表演賽充分暴露了 AlphaStar 目前的不足。
我們不難看出,盡管其神經(jīng)網(wǎng)絡(luò)已經(jīng)趨于長(zhǎng)期優(yōu)化,但似乎仍然會(huì)在一定程度上陷入局部最優(yōu),被人類(lèi)發(fā)現(xiàn)固定模式,落入圈套,而且從 5 個(gè)小叮當(dāng)抱團(tuán),到純追獵部隊(duì),都顯示出它對(duì)游戲兵種的理解尚不到位,如果最后一局它可以像人類(lèi)一樣直接派出鳳凰防守棱鏡,或許它將繼續(xù)憑借超強(qiáng)的微操一波推平 MaNa。
比賽回放過(guò)程中,主持人問(wèn)到 DeepMind 科學(xué)家,平時(shí)如何訓(xùn)練 AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過(guò)觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解星際爭(zhēng)霸的基本知識(shí)。這其中所使用到的訓(xùn)練資料不但包括專(zhuān)業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
圖 | DeepMind 科學(xué)家 Oriol Vinyals(圖源:Youtube)
圖 | DeepMind 科學(xué)家 David Silver(圖源:Youtube)
之后,團(tuán)隊(duì)會(huì)使用一個(gè)稱(chēng)為“Alpha League”的方法。在這個(gè)方法中,Alpha League 的第一個(gè)競(jìng)爭(zhēng)對(duì)手就是從人類(lèi)數(shù)據(jù)中訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
圖 | Alpha League 示意圖(圖源:Youtube)
然后,這些 agent 通過(guò)強(qiáng)化學(xué)習(xí)過(guò)程與“Alpha League”中的其他競(jìng)爭(zhēng)對(duì)手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過(guò)調(diào)整它們的個(gè)人學(xué)習(xí)目標(biāo)來(lái)鼓勵(lì)競(jìng)爭(zhēng)對(duì)手朝著特定方式演進(jìn),比如說(shuō)旨在獲得特定的獎(jiǎng)勵(lì)。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱(chēng)之為“the nash of League”,這就是 TLO 所對(duì)戰(zhàn)的5個(gè)。
比賽前期,DeepMind 與暴雪就聯(lián)合發(fā)布了關(guān)于此次比賽的重磅預(yù)告:將在北京時(shí)間周五凌晨 2 點(diǎn)展示 Deepmind 研發(fā)的 AI 在即時(shí)戰(zhàn)略游戲星際爭(zhēng)霸 2 上的最新進(jìn)展。如今,這個(gè)進(jìn)展終于揭開(kāi)神秘面紗。
而 DeepMind 開(kāi)發(fā)星際爭(zhēng)霸 2 AI,最早可以追溯到 2016 年。當(dāng)時(shí),DeepMind 研究科學(xué)家 Oriol Vinyals 在暴雪嘉年華現(xiàn)場(chǎng)透露 Deepmind 與星際爭(zhēng)霸 2 緊密合作的最新進(jìn)展及未來(lái)的計(jì)劃。在 AlphaGo 在 2017 年圍棋大獲全勝之后,DeepMind 開(kāi)始對(duì)外宣布,團(tuán)隊(duì)正在著手讓人工智能征服星際爭(zhēng)霸 2,這款游戲?qū)θ斯ぶ悄茉谔幚韽?fù)雜任務(wù)上的成功提出了"重大挑戰(zhàn)"。
在 2018 年 1 月的 EmTech 大會(huì)上,谷歌 DeepMind 科學(xué)家 Oriol Vinyals 曾對(duì) DT 君表示,第一版的 AlphaGo 擊敗了樊麾,后來(lái)下一個(gè)版本在韓國(guó)和李世石進(jìn)行了對(duì)弈并取得了勝利。再后來(lái)進(jìn)一步地訓(xùn)練網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)比之前強(qiáng)了三倍,贏了柯潔和其他專(zhuān)業(yè)棋手。團(tuán)隊(duì)是從零開(kāi)始,一點(diǎn)點(diǎn)積累積數(shù)據(jù)訓(xùn)練,最后戰(zhàn)勝了專(zhuān)業(yè)棋手。而除了棋類(lèi)游戲以外,DeepMind 比較感興趣的,就是游戲星際爭(zhēng)霸 2。
繼圍棋之后,DeepMind 為什么要選擇星際爭(zhēng)霸 2 這款游戲?yàn)橄乱粋€(gè)目標(biāo)呢?
星際爭(zhēng)霸 2 是由美國(guó)著名游戲公司暴雪娛樂(lè)(Blizzard Entertainment)推出的一款以星際戰(zhàn)爭(zhēng)為題材的即時(shí)戰(zhàn)略游戲。星際爭(zhēng)霸 2 具備策略性、競(jìng)爭(zhēng)性的特性,在全球都非常火爆,并且每年都會(huì)舉辦大量的比賽,因此也有著海量的玩家基礎(chǔ)。
圖丨谷歌 DeepMind 科學(xué)家 Oriol Vinyals(來(lái)源:DeepTech)
據(jù) Oriol Vinyals 當(dāng)時(shí)透露,星際爭(zhēng)霸 2 是非常有趣和復(fù)雜的游戲,這個(gè)游戲基本上是建造一些建筑物以及單位,在同一個(gè)地圖里不同的組織會(huì)相互競(jìng)爭(zhēng)。在這個(gè)游戲中,哪怕只是建造建筑物,也需要做出許多決策。除此之外,還要不斷收集和利用資源、建造不同的建筑物、不斷擴(kuò)張,因此整個(gè)游戲非常具有挑戰(zhàn)性。
而且,和圍棋任務(wù)最大的不同在于,圍棋可以看到整個(gè)棋盤(pán),但是在星際爭(zhēng)霸 2 中我們通常無(wú)法看到整個(gè)地圖,需要派小兵出去偵查。另外,游戲是不間斷進(jìn)行的。整個(gè)游戲甚至?xí)谐^(guò) 5000 步的操作。對(duì)于增強(qiáng)學(xué)習(xí)這種方法來(lái)說(shuō),除了上下左右這些普通的移動(dòng),用鼠標(biāo)點(diǎn)擊界面控制不同物體的移動(dòng)以及不同的行為也是非常難的。
星際爭(zhēng)霸 2 的這些特質(zhì),恰恰是人工智能在創(chuàng)新之路上需要挑戰(zhàn)的——面對(duì)許多難以預(yù)測(cè)的突發(fā)情況,人工智能必須要既作出正確的對(duì)策,還要根據(jù)實(shí)際情況細(xì)微的調(diào)整對(duì)策。
(來(lái)源:DeepMind)
星際爭(zhēng)霸 2 作為"即時(shí)戰(zhàn)略"游戲,其"即時(shí)"和"戰(zhàn)略"的特性無(wú)疑是鍛煉 AI 的最佳途徑之一。就拿"即時(shí)"來(lái)說(shuō),或許對(duì)于人類(lèi),星際 2 的那 300 多個(gè)基礎(chǔ)操作的"操作空間"(Action Space)并不龐大。但是對(duì)于機(jī)器,星際 2 的分級(jí)操作,外加"升科技"所帶來(lái)指令的變化,再加上地圖的體積,其操作空間是無(wú)窮大的。比如"農(nóng)民建房子"這個(gè)簡(jiǎn)單的行動(dòng)就有 6 個(gè)不同的步驟:點(diǎn)擊滑動(dòng)鼠標(biāo)選擇單位,B 選擇建造,S 選擇供給站,滑動(dòng)鼠標(biāo)選擇位置,點(diǎn)擊建造。僅在一個(gè) 84x84 的屏幕上,機(jī)器的操作空間有大約 1 億個(gè)可能的操作。
在 DeepMind 與暴雪長(zhǎng)期以來(lái)的合作中,有幾個(gè)重要節(jié)點(diǎn):
2017 月 8 月,星際爭(zhēng)霸 2 開(kāi)發(fā)團(tuán)隊(duì)發(fā)布人工智能研究環(huán)境 SC2LE(StarCraft II Learning Environment),它包括一個(gè)能讓研究人員和開(kāi)發(fā)人員與游戲掛鉤的機(jī)器學(xué)習(xí) API,開(kāi)放了 65000 場(chǎng)比賽的數(shù)據(jù)緩存,以及 50 萬(wàn)次匿名游戲回放和其他研究成果。其中一些數(shù)據(jù)對(duì)于訓(xùn)練和輔助序列預(yù)測(cè)和長(zhǎng)期記憶研究非常有用,當(dāng)時(shí)團(tuán)隊(duì)也希望通過(guò)這些工具,幫助研究人員加快星際爭(zhēng)霸 2 AI 的開(kāi)發(fā)速度。
圖丨 Julian Schrittwieser(來(lái)源:麻省理工科技評(píng)論)
SC2LE 發(fā)布不久以后,AlphaGo Zero 創(chuàng)造者之一、《麻省理工科技評(píng)論》TR 35 獲得者 Julian Schrittwieser 在在一場(chǎng)網(wǎng)絡(luò)互動(dòng)中表示:星際爭(zhēng)霸 2 的 AI 尚處早期,研發(fā)難度比圍棋人工智能更大,在 AlphaGo Zero 誕生之后,團(tuán)隊(duì)希望能以此為契機(jī),在 AI 研究上再次實(shí)現(xiàn)突破。
團(tuán)隊(duì)與星際爭(zhēng)霸 2 相關(guān)的第一篇公開(kāi)論文,則出現(xiàn)在 2018 年 6 月。當(dāng)時(shí),DeepMind 在 arXIv 發(fā)布其最新研究成果:用關(guān)系性深度強(qiáng)化學(xué)習(xí)在星際 2 六個(gè)模擬小游戲(移動(dòng)、采礦、建造等)中達(dá)到了當(dāng)前最優(yōu)水平,其中四個(gè)超過(guò)人族天梯大師組玩家。
之后,直到 2018 年 11 月,在暴雪的一場(chǎng)展會(huì)上,我們才再次得知這個(gè)項(xiàng)目的進(jìn)展——DeepMind 團(tuán)隊(duì)曾展示了能夠執(zhí)行基本的集中策略以及防御策略的人工智能進(jìn)展:在掌握游戲的基本規(guī)則后,它就會(huì)開(kāi)始表現(xiàn)出有趣的行為,比如立即沖向?qū)κ止簦芯繄F(tuán)隊(duì)還公布其 AI 在對(duì)抗"瘋狂"電腦時(shí)也有 50% 的勝率。
對(duì)比 3 個(gè)月后的今天,從 DeepMind AI 在比賽中的表現(xiàn),不得不說(shuō)其進(jìn)步之快。
接下來(lái)另一場(chǎng)值得期待的"大戰(zhàn)",將發(fā)生在 2 月 15 日:在星際爭(zhēng)霸 2 AI 直播預(yù)告公布后,芬蘭電競(jìng)戰(zhàn)隊(duì) ENCE 也發(fā)布通告,稱(chēng) WCS 星際爭(zhēng)霸 2 全球總冠軍芬蘭選手 Serral 將在與星際 2 人工智能上演一場(chǎng)人機(jī)大戰(zhàn)。屆時(shí) AI 與人類(lèi)頂尖選手的對(duì)戰(zhàn),或許還將會(huì)再次創(chuàng)造新的歷史事件。
圖 | ENCE通告(圖源:Twitter)
近幾年,除了 DeepMind 以外,已經(jīng)有越來(lái)越多的人工智能公司或者研究機(jī)構(gòu)投身到開(kāi)發(fā)游戲類(lèi)AI的浪潮中,例如 OpenAI 和騰訊的 AI lab 等等。
歸根結(jié)底,這些團(tuán)隊(duì)對(duì)游戲AI的熱情,恐怕都源于打造通用型人工智能的這一終極目標(biāo):游戲AI的研發(fā)將會(huì)進(jìn)一步拓寬人類(lèi)對(duì)于AI能力的認(rèn)知,這樣的研究最終將探索的問(wèn)題 AI 能否能夠通過(guò)游戲規(guī)則進(jìn)行自主學(xué)習(xí),達(dá)到更高層次的智能乃至通用型人工智能。例如,在游戲AI的設(shè)計(jì)中,增強(qiáng)學(xué)習(xí)算法的改進(jìn)將至關(guān)重要。增強(qiáng)學(xué)習(xí)是一種能夠提高 AI 能力的核心算法,它讓 AI 能夠解決具有不確定性動(dòng)態(tài)的決策問(wèn)題(比如游戲 AI,智能投資,自動(dòng)駕駛,個(gè)性化醫(yī)療),這些問(wèn)題往往也更加復(fù)雜。
而 DeepMind 團(tuán)隊(duì)的成果已經(jīng)為此帶來(lái)了一絲曙光—— AlphaGo Zero在短時(shí)間內(nèi)精通圍棋、象棋、國(guó)際象棋三種棋類(lèi)游戲,已有棋類(lèi)通用AI雛形。棋類(lèi)游戲之后,最值得期待的進(jìn)展,就是各家開(kāi)發(fā)的AI在即時(shí)戰(zhàn)略類(lèi) RTS 游戲或多人在線競(jìng)技類(lèi) MOBA 游戲上的表現(xiàn)了。此前,騰訊 AI Lab 負(fù)責(zé)人之一姚星就介紹過(guò),在游戲AI的研究上,騰訊 AI Lab 已從圍棋 AI “絕藝”等單個(gè) AI 的完全信息博弈類(lèi)游戲,轉(zhuǎn)移到規(guī)則不明確、任務(wù)多樣化、情況復(fù)雜的游戲類(lèi)型,如星際爭(zhēng)霸和 Dota2 等復(fù)雜的即時(shí)戰(zhàn)略類(lèi) RTS 游戲或多人在線競(jìng)技類(lèi) MOBA 游戲。
圖丨 OpenAI 宣布他們所打造的一個(gè) AI 機(jī)器人已經(jīng)在電子競(jìng)技游戲 Dota 2 中擊敗了一個(gè)名為 Dendi 的人類(lèi)職業(yè)玩家(來(lái)源:OpenAI)
在剛剛過(guò)去的2018年,OpenAI 開(kāi)發(fā)出的 AI OpenAI Five 就是針對(duì) Dota2 開(kāi)發(fā)的AI,但是它與人類(lèi) PK 的過(guò)程可謂充滿戲劇性。2018 年 8 月初,OpenAI Five 戰(zhàn)勝一支人類(lèi)玩家高水平業(yè)余隊(duì)伍(天梯 4000 分左右),然而,到了 8 月底 OpenAI Five 被兩支專(zhuān)業(yè)隊(duì)伍打敗, AI 提前結(jié)束了其在本屆 DOTA 2 國(guó)際頂尖賽事 TI 8 的旅程。回顧那次失敗的過(guò)程,其實(shí)OpenAI 的系統(tǒng)仍然無(wú)法全面理解 DOTA 復(fù)雜的游戲系統(tǒng)和規(guī)則。
現(xiàn)在,DeepMind 的星際爭(zhēng)霸2 AI 已經(jīng)以其超強(qiáng)實(shí)力打響游戲 AI 2019 年第一戰(zhàn),接下來(lái)還有哪些游戲AI將橫空出世呢?各大游戲AI又將如何邁向通用人工智能,讓我們拭目以待。
源:36氪
超人的速度和精度幫助《星際爭(zhēng)霸》AI擊敗了2位頂級(jí)人類(lèi)玩家。
編者按:繼在最復(fù)雜的棋類(lèi)游戲擊敗了人類(lèi)世界冠軍之后,Google的DeepMind又瞄準(zhǔn)了最復(fù)雜的視頻游戲——實(shí)時(shí)策略游戲《星際爭(zhēng)霸》。經(jīng)過(guò)短短兩周的訓(xùn)練之后,前不久,其AI AlphaStar以兩個(gè)5:0分別擊敗了兩位頂級(jí)的人類(lèi)職業(yè)玩家,令世人再度感到震驚。不過(guò),AI的能力真的有這么強(qiáng)嗎?arstechnica網(wǎng)站的一篇文章對(duì)此進(jìn)行了剖析。
在第四場(chǎng)比賽的一場(chǎng)決定性的戰(zhàn)斗中,2隊(duì)AI控制的追捕者逼近Grzegorz "MaNa" Komincz的基地
2014年Google收購(gòu)的AI初創(chuàng)企業(yè)DeepMind,其最知名的成就也許是成為第一個(gè)擊敗人類(lèi)圍棋世界冠軍的AI。在掌握了全世界最具挑戰(zhàn)性之一的棋類(lèi)游戲之后,你接下來(lái)又會(huì)干什么呢?攻克最復(fù)雜的視頻游戲。DeepMind于是決定寫(xiě)一個(gè)AI來(lái)玩實(shí)時(shí)策略游戲星際爭(zhēng)霸2。
星際爭(zhēng)霸要求玩家收集資源、建立很多的部隊(duì),然后利用這些來(lái)摧毀對(duì)手。星際爭(zhēng)霸對(duì)AI尤其具有挑戰(zhàn)性,因?yàn)橥婕冶仨氃趲追昼姷挠螒驎r(shí)間內(nèi)制訂長(zhǎng)遠(yuǎn)計(jì)劃,并在面臨敵人攻擊時(shí)實(shí)時(shí)地進(jìn)行調(diào)整調(diào)度。DeepMind稱(chēng)在自己之前,還沒(méi)人能夠設(shè)計(jì)出與最好人類(lèi)玩家水平接近的星際爭(zhēng)霸AI。
最近DeepMind宣布了一項(xiàng)重大突破。其星際爭(zhēng)霸AI AlphaStar分別以兩個(gè)5:0擊敗了兩位星際爭(zhēng)霸的頂級(jí)玩家——Dario "TLO" Wünsch與Grzegorz "MaNa" Komincz。
AlphaStar也許是最強(qiáng)的星際爭(zhēng)霸AI。但它的成就未必像乍看起來(lái)那么大,因?yàn)檫@不是一項(xiàng)完全公平的比賽。
DeepMind稱(chēng)“AlphaStar的行為由一個(gè)深度神經(jīng)網(wǎng)絡(luò)生成,該網(wǎng)絡(luò)接收裸游戲界面(游戲單位及屬性清單)的數(shù)據(jù)輸入,然后輸出一系列構(gòu)成游戲動(dòng)作的指令。說(shuō)得具體一點(diǎn),該神經(jīng)網(wǎng)絡(luò)架構(gòu)應(yīng)用了一個(gè)transformer 作為軀干,結(jié)合了一個(gè)深度 LSTM 內(nèi)核、一個(gè)自回歸策略頭、一個(gè)指針網(wǎng)絡(luò),以及一個(gè)集中化的價(jià)值基線。”
這些專(zhuān)業(yè)的說(shuō)法很繞,不過(guò)DeepMind解釋了訓(xùn)練其虛擬星際爭(zhēng)霸玩家改進(jìn)技巧的部分細(xì)節(jié)。
首先他們用有監(jiān)督學(xué)習(xí)幫助AI學(xué)習(xí)模仿人類(lèi)玩家的策略。這種強(qiáng)化學(xué)習(xí)技巧足以開(kāi)發(fā)出一個(gè)能玩的星際爭(zhēng)霸2機(jī)器人。DeepMind稱(chēng)這個(gè)初始的機(jī)器人“95%的時(shí)間內(nèi)擊敗了內(nèi)置的精英級(jí)AI(相當(dāng)于人類(lèi)玩家的黃金級(jí))。”
DeepMind然后靠這個(gè)AI派生出來(lái)多個(gè)版本,每一個(gè)的游戲風(fēng)格都略有不同。所有的AI都被放進(jìn)一個(gè)虛擬的星際爭(zhēng)霸聯(lián)賽當(dāng)中,每一個(gè)AI會(huì)跟其他AI不停地挑燈夜戰(zhàn),不斷地從錯(cuò)誤中吸取教訓(xùn),然后持續(xù)地演進(jìn)自己策略。
DeepMind寫(xiě)道:“為了鼓勵(lì)聯(lián)賽的多樣性,每一個(gè)AI都有自己的學(xué)習(xí)目標(biāo):比方說(shuō),要擊敗哪些競(jìng)爭(zhēng)對(duì)手,要增加哪些偏向于指導(dǎo)AI如何玩游戲的激勵(lì)因子。某個(gè)AI的目標(biāo)可能是擊敗特定對(duì)手,而另一個(gè)AI可能是如何擊敗一群競(jìng)爭(zhēng)對(duì)手,但是是靠做出更多特定游戲單位來(lái)做到的。”
按照DeepMind的說(shuō)法,一些AI積累的游戲用時(shí)相當(dāng)于人類(lèi)玩200年的時(shí)間。在2周之內(nèi),這個(gè)進(jìn)化過(guò)程極大地改進(jìn)率AI的平均技能水平:
到最后時(shí),DeepMind挑選了其中5個(gè)最強(qiáng)的AI來(lái)應(yīng)戰(zhàn)人類(lèi)玩家。這種方案的后果之一是人類(lèi)玩家在每一場(chǎng)比賽時(shí)都要面對(duì)AlphaStar不同的對(duì)戰(zhàn)策略。
DeepMind當(dāng)時(shí)還邀請(qǐng)了游戲主播在復(fù)盤(pán)時(shí)對(duì)賽況進(jìn)行評(píng)論。主播被AlphaStar的“微”能力——也就是在激戰(zhàn)正酣時(shí)迅速做出戰(zhàn)術(shù)決策的能力給震驚到了。
這種能力在AlphaStar與Komincz對(duì)戰(zhàn)的第四場(chǎng)比賽中表現(xiàn)得最明顯。Komincz是兩位人類(lèi)選手中較強(qiáng)的那位,而第四場(chǎng)也是Komincz最接近獲得勝利的一場(chǎng)。這場(chǎng)比賽的高潮部分是Komincz由幾種單位類(lèi)型(不朽者、執(zhí)政官、狂熱者)的部隊(duì)被AlphaStar完全由追獵者的部隊(duì)圍攻。
AlphaStar v. Komincz的第四場(chǎng)比賽中,AlphaStar的追獵者(藍(lán))從三方攻擊Komincz的不朽者、執(zhí)政官、狂熱者(紅),AlphaStar的追獵者最終贏得了比賽繼而摧毀了Komincz的基地。
追獵者并沒(méi)有特別強(qiáng)大的武器和裝備,所以跟不朽者和執(zhí)政官拼刺刀的時(shí)候一般都是要輸?shù)摹5亲帆C者行動(dòng)快,而且有一門(mén)叫做“閃現(xiàn)”的絕技,可以瞬間傳送到范圍內(nèi)的目標(biāo)可見(jiàn)地點(diǎn)。
這就為AlphaStar創(chuàng)造了一個(gè)機(jī)會(huì):用一大群追獵者進(jìn)行攻擊,讓前排的搞搞破壞,接著在被干掉之前閃現(xiàn)到后排,然后再慢慢補(bǔ)血。如此反復(fù)輪換,AlphaStar就可以在自己損失不大的情況下對(duì)敵方造成大量破壞。
這種辦法的不好之處是需要玩家持續(xù)的注意力。玩家需要監(jiān)控追獵者的健康狀況,找出需要閃現(xiàn)溜掉的追獵者。這就有點(diǎn)棘手了,因?yàn)樾请H爭(zhēng)霸玩家往往要照顧一堆的東西——需要關(guān)心基地新的單位的建設(shè),偵查敵軍基地,盯住敵人進(jìn)攻等等。
觀察AlphaStar與Komincz第四場(chǎng)大戰(zhàn)的評(píng)論員對(duì)AlphaStar的微能力感到驚嘆。
評(píng)論員Dan Stemkoski說(shuō):“這個(gè)技巧我們看到AlphaStar一直在用。”。AlphaStar會(huì)攻擊Komincz的部隊(duì)然后在自己遭受重大傷害前閃現(xiàn)溜走。他補(bǔ)充說(shuō):“我覺(jué)得大多數(shù)職業(yè)玩家玩到這種程度時(shí)基本上追獵者都要耗光了”。
AlphaStar的表現(xiàn)尤其令人印象深刻,因?yàn)樗欢葘?duì)不同地方的多組追獵者采用這種戰(zhàn)術(shù)。
評(píng)論員Kevin "RotterdaM" van der Kooi 說(shuō):“在星際爭(zhēng)霸2這樣的游戲里面做這個(gè)是特別困難的,如果你的部隊(duì)一部分在屏幕下方,一部分在屏幕上方的話,想要同時(shí)做這件事情是特別困難的。這么好的控制是現(xiàn)象級(jí)的。”
Stemkoski補(bǔ)充說(shuō):“真正令人震驚的是當(dāng)我們看看每分鐘動(dòng)作數(shù)時(shí),其實(shí)AlphaStar是沒(méi)那么高的。這是一個(gè)可以接受的專(zhuān)業(yè)級(jí)速度。”
DeepMind制作了一幅圖來(lái)說(shuō)明這一點(diǎn):
正如這張圖表顯示那樣,頂級(jí)的星際爭(zhēng)霸玩家可以非常迅速地發(fā)布指令給自己的部隊(duì)。Grzegorz "MaNa" Komincz在跟AlphaStar對(duì)戰(zhàn)時(shí)的平均APM(每分鐘動(dòng)作數(shù))是390(每秒鐘超過(guò)6下!)。不過(guò)當(dāng)然了,計(jì)算機(jī)程序輕易就能在一分鐘之內(nèi)執(zhí)行數(shù)千動(dòng)作,那種對(duì)部隊(duì)的控制頻度絕對(duì)是無(wú)人能敵的。
為了避免這一點(diǎn),DeepMind稱(chēng)自己給AlphaStar的APM設(shè)定了上限。DeepMind研究人員Oriol Vinyals在Reddit上寫(xiě)道:“我們?cè)O(shè)定5秒間隔的最大APM值是600,15秒間隔的最大APM是400,30秒間隔的是320,60秒間隔的是300。”
不過(guò)另一位reddit用戶迅速指出,5秒鐘在星際爭(zhēng)霸游戲里面已經(jīng)算很長(zhǎng)了。這些限制似乎意味著AlphaStar可以在1秒鐘之內(nèi)執(zhí)行50個(gè)動(dòng)作,或者以每秒15個(gè)動(dòng)作的頻率執(zhí)行3秒鐘的動(dòng)作。
更重要的是,AlphaStar有能力以外科手術(shù)般的精度使用API,而人類(lèi)卻受制于計(jì)算機(jī)鼠標(biāo)的機(jī)械限制。如果你看了像Komincz這樣的職業(yè)玩家玩的話,你會(huì)看到裸動(dòng)作的數(shù)量要遠(yuǎn)遠(yuǎn)超過(guò)有意義的動(dòng)作的數(shù)量。
比方說(shuō),如果人類(lèi)玩家只引導(dǎo)一個(gè)游戲單位執(zhí)行一項(xiàng)重要任務(wù)的話,他會(huì)沿著該游戲單位的當(dāng)前軌跡發(fā)布一系列的“移動(dòng)”命令。每一條命令幾乎不會(huì)改變?cè)搯挝坏穆窂剑侨绻祟?lèi)玩家已經(jīng)選擇了該單位的話,他幾乎不需要花時(shí)間再去點(diǎn)擊一次。但這些命令嚴(yán)格來(lái)說(shuō)大部分都不是必要的;而像AlphaStar這樣的AI輕易就能找出該單位的最優(yōu)路線,然后發(fā)布一系列數(shù)量要少得多的一點(diǎn)命令就能取得同樣的結(jié)果。
所以限制AI可以執(zhí)行的動(dòng)作的裸數(shù)量為典型人類(lèi)的水平未必意味著有意義的動(dòng)作數(shù)量具有可比性。
而且AlphaStar在最初游戲中使用的API賦予了它對(duì)整個(gè)戰(zhàn)場(chǎng)一個(gè)上帝視角(盡管只有在AlphaStar的一支部隊(duì)范圍內(nèi)的一部分戰(zhàn)場(chǎng)的)。而如果人類(lèi)玩家想要在兩個(gè)不同的地方采取行動(dòng)的話,他首先需要將攝像頭移到新的位置。
值得稱(chēng)道的是,DeepMind意識(shí)到了這個(gè)問(wèn)題。所以在回放部分AlphaZero背靠背5:0擊敗人類(lèi)職業(yè)玩家的比賽之后,該公司籌劃了一場(chǎng)最后一場(chǎng)AlphaStar跟Komincz直播比賽。這場(chǎng)比賽使用了新版的AlphaStar,這個(gè)版本被施加了一個(gè)重要的限制:它將被迫采用攝像頭視圖,從而模擬人類(lèi)星際爭(zhēng)霸界面的限制。新的節(jié)目只允許AlphaStar一次看到一小部分戰(zhàn)場(chǎng),而且只能發(fā)命令給處在當(dāng)前視野內(nèi)的游戲單位。
DeepMind有幾周的時(shí)間去訓(xùn)練這一新版本,但跟前個(gè)月與Komincz比賽的那個(gè)版本相比似乎要弱很多。
在表演賽的最初幾分鐘里,Komincz穩(wěn)穩(wěn)地?fù)踝×斯?shì),輕易就抵擋AlphaStar的攻擊。然后他發(fā)動(dòng)了狡猾的反擊。
Komincz的2支不朽者部隊(duì)(綠色)向AlphaStar的探測(cè)器開(kāi)火,同時(shí)他的折躍棱鏡在上方正在等待采取行動(dòng)。AlphaStar的追獵者(紅)正從西邊趕過(guò)來(lái)救援,但還沒(méi)等它們趕到Komincz就把不朽者弄進(jìn)了折躍棱鏡,并將其帶到了水那頭的東邊——超出了追捕者武器的攻擊范圍。
Komincz把兩支強(qiáng)大的不朽者部隊(duì)裝進(jìn)了一個(gè)叫做折躍棱鏡的運(yùn)輸船,然后將它們運(yùn)到AlphaStar的基地,在那里脆弱的探測(cè)器正在采礦,這些礦石是AlphaStar的戰(zhàn)爭(zhēng)武器的動(dòng)力來(lái)源。他把不朽者投放到基地里,開(kāi)始炸毀探測(cè)器。
再次地,AlphaStar組建了一只龐大的追捕者部隊(duì),然后馬上派遣去防御探測(cè)器。但在追捕者還沒(méi)有進(jìn)入到不朽者的范圍之前,Komincz就已經(jīng)把它們送回到折躍棱鏡然后逃之夭夭了。折躍棱鏡不見(jiàn)之后,AlphaStar就把追捕者派遣到Komincz的基地。
Komincz然后又故伎重施:投放不朽者,摧毀幾個(gè)探測(cè)器,然后在追捕者趕過(guò)來(lái)之前再把不朽者送走。就這么反復(fù)這樣的操作。當(dāng)他這么做的時(shí)候,AlphaStar的追捕者因?yàn)橥絼诘赝刀速M(fèi)了寶貴的時(shí)間。
當(dāng)Komincz第三次投放不朽者到AlphaStar的基地時(shí),Stemkoski說(shuō):“這就是我經(jīng)常看到的人機(jī)對(duì)戰(zhàn)的情形。當(dāng)你找到對(duì)方的一個(gè)漏洞時(shí),你就會(huì)反復(fù)地抓住那個(gè)錯(cuò)誤攻擊,屢試不爽。”
折躍棱鏡這個(gè)花招讓AlphaStar的追捕者大部隊(duì)疲于奔命的同時(shí),Komincz一邊也在聚集自己的大軍。然后他指揮這支部隊(duì)朝著AlphaStar的巢穴直搗黃龍,攻擊為AlphaStar的戰(zhàn)爭(zhēng)機(jī)器采集資源的探測(cè)器。AlphaStar用追捕者騷擾Komincz的部隊(duì),但Komincz設(shè)法保持隊(duì)伍的陣型,最后,AlphaStar沒(méi)有辦法阻止Komincz給自己的基地造成了嚴(yán)重破壞。
我們不知道Komincz在輸?shù)糁暗?場(chǎng)比賽之后究竟是如何贏得這場(chǎng)比賽的。似乎攝像頭視圖的限制無(wú)法直接解釋AlphaStar不能對(duì)折躍棱鏡的投放攻擊做出有效響應(yīng)。
但是合理的推斷是,攝像頭視圖的限制全面降低了AlphaStar的表現(xiàn),阻止了它有效地炮制游戲單位,或者以開(kāi)局時(shí)同樣致命的精度來(lái)管理部隊(duì)。這樣也許就給了Komincz足夠的喘息之機(jī),去尋找AlphaStar戰(zhàn)略意圖的漏洞然后加以利用。
最后看來(lái),上次的演示引出的問(wèn)題要比回答的要多。DeepMind稱(chēng)自己在短短一周的訓(xùn)練之后就看到AlphaStar的表現(xiàn)有了重大改良。如果這一進(jìn)程延續(xù)下去的話,AlphaStar也許就能恢復(fù)對(duì)人類(lèi)玩家的決定性優(yōu)勢(shì),哪怕對(duì)其API施加新的限制。
另一方面,尚不清楚引入的這個(gè)攝像頭限制是否足以保證比賽的公平性。AlphaStar仍然可以通過(guò)特殊API獲取游戲信息,這個(gè)跟人類(lèi)玩家獲得的信息是不一樣的。這個(gè)API也許能讓軟件收集更多的信息,從而比人類(lèi)玩家更迅速、更精確地發(fā)布指令。
讓比賽公平的終極方式是讓AlphaStar使用跟人類(lèi)玩家一樣的用戶界面。當(dāng)然,這個(gè)界面可以是虛擬化的,但游戲應(yīng)該是跟人類(lèi)玩家一樣的裸像素輸入,而且應(yīng)該要求利用一系列的鼠標(biāo)移動(dòng)和點(diǎn)擊來(lái)輸入指令——而且輸入速度要限制到人類(lèi)手的操作能達(dá)到的程度。這是唯一可以確保AlphaStar沒(méi)有給予其軟件不公平優(yōu)勢(shì)的辦法。
原文鏈接:https://arstechnica.com/gaming/2019/01/an-ai-crushed-two-human-pros-at-starcraft-but-it-wasnt-a-fair-fight/
剛,我們見(jiàn)證了 AI 與人類(lèi) PK 的又一次重大進(jìn)展!DeepMind 北京時(shí)間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭(zhēng)霸 2》中與2位職業(yè)選手的比賽過(guò)程:AlphaStar 5:0 戰(zhàn)勝職業(yè)選手TLO ,5:0戰(zhàn)勝 2018 年 WSC 奧斯汀站亞軍 MaNa 。與兩位人類(lèi)對(duì)手的比賽相隔約兩周,AI 自學(xué)成才,經(jīng)歷了從與 TLO 對(duì)戰(zhàn)時(shí)的菜鳥(niǎo)級(jí)別,進(jìn)化到完美操作的過(guò)程,尤其是與 MaNa 的對(duì)戰(zhàn),已經(jīng)初步顯示了可以超越人類(lèi)極限的能力。
這次的演示也是 DeepMind 的星際爭(zhēng)霸 2 AI AlphaStar 的首次公開(kāi)亮相。除了此前比賽錄像的展示外,AlphaStar 還和 MaNa 現(xiàn)場(chǎng)來(lái)了一局,不過(guò),這局AlphaStar 輸給了人類(lèi)選手 MaNa 。
圖 | MaNa 正在聚精會(huì)神比賽(圖源:Youtube)
DeepMind 在演示中介紹,雙方的比賽固定在 Catalyst LE 地圖,采用 4.6.2 游戲版本,而且只能進(jìn)行神族內(nèi)戰(zhàn),雙方將進(jìn)行 5 場(chǎng)比賽。首先接受邀請(qǐng)的是 Liquid 戰(zhàn)隊(duì)的蟲(chóng)族選手 TLO,目前世界排名 68。
圖 | TLO(圖源:Youtube)
第一場(chǎng)比賽,TLO 出現(xiàn)在 10 點(diǎn)鐘方向,AlphaStar 出現(xiàn)在 4 點(diǎn)鐘對(duì)角方向。TLO 的開(kāi)場(chǎng)非常傳統(tǒng),采用了雙兵營(yíng)封路的開(kāi)局,但 AlphaStar 并沒(méi)有封路,這一問(wèn)題被 TLO 的農(nóng)民偵查到,他果斷拍出使徒,采用了常見(jiàn)的殺農(nóng)民騷擾策略。
雖然 AlphaStar 沒(méi)有封路,直接放進(jìn)了 TLO 的使徒,但 AlphaStar 的雙兵營(yíng)也造出了使徒防守,導(dǎo)致 TLO 的第一次騷擾只殺掉了兩個(gè)農(nóng)民,剩下的使徒也無(wú)功而返。
隨后雙方都開(kāi)始補(bǔ)出追獵,TLO 開(kāi)始用先知騷擾。雙方進(jìn)行了多個(gè)小規(guī)模交戰(zhàn),幾波互換幾乎平手,AlphaStar 損失的農(nóng)民較多,TLO 損失了多個(gè)使徒。在交戰(zhàn)中,我們看到了 AlphaStar 進(jìn)行了類(lèi)似人類(lèi)的微操,一邊撤退,一邊反打 TLO 的追獵,同時(shí)利用棱鏡傳輸兵力。
圖 | AlphaStar 的視野,它可以看到全地圖戰(zhàn)爭(zhēng)迷霧之外發(fā)生了什么,然后做出決策,實(shí)現(xiàn)全局資源調(diào)度(圖源:Youtube)
不過(guò) TLO 此時(shí)的二礦剛剛建好,AlphaStar 只有單礦,將更多的經(jīng)濟(jì)轉(zhuǎn)化成了兵力,因此 AlphaStar 爆出了更多的追獵,直接選擇進(jìn)攻二礦,TLO 的追獵寡不敵眾,在主力兵力被殲滅后打出 GG。
第一局以 DeepMind 的勝出為結(jié)果,我們看到了 AlphaStar 的一些不同尋常做法,比如不選擇互相騷擾農(nóng)民,而是直接用兵力防守,然后發(fā)現(xiàn) TLO 拍下二礦之后,在正面戰(zhàn)場(chǎng)用一定數(shù)量的追獵持續(xù)壓制。
由于時(shí)間限制,演示中并沒(méi)有播放所有比賽,而是在展示了另外一局比賽錄像后,給出了 TLO 五局全敗的戰(zhàn)績(jī)。不過(guò)所有的錄像都將在 DeepMind 官網(wǎng)上放出,供人下載。
TLO 在演示中表示,他覺(jué)得自己還是可以贏的,如果能夠有更多的訓(xùn)練時(shí)間,對(duì) AlphaStar 有更多的了解,是一定可以找到 AlphaStar 弱點(diǎn),然后獲勝的。
隨后登場(chǎng)的是 Liquid 戰(zhàn)隊(duì) MaNa,作為排名 19 的神族選手,他比 TLO 更加強(qiáng)大。如果 AlphaStar 可以戰(zhàn)勝他,那將說(shuō)明 AlphaStar 真的具備了人類(lèi)頂尖選手的實(shí)力。
圖 | AlphaStar 和人類(lèi)選手的 APM 并沒(méi)有太大區(qū)別(圖源:Youtube)
與 MaNa 的第一局,雙方都是“常規(guī)”開(kāi)局,MaNa 封路,AlphaStar 沒(méi)有封路。不過(guò) AlphaStar 采取了變種戰(zhàn)略,選擇在 MaNa 基地附近放下水晶,拍下兩個(gè)兵營(yíng),準(zhǔn)備利用兵營(yíng)距離的優(yōu)勢(shì)進(jìn)攻。MaNa 此時(shí)還在按照人類(lèi)的思路,利用使徒騷擾農(nóng)民。
在 AlphaStar 兵營(yíng)快完成的時(shí)候,被 MaNa 發(fā)現(xiàn),他果斷采取了防守措施,在高坡建造了兩個(gè)充電站,準(zhǔn)備利用封路和高坡的優(yōu)勢(shì)防守即將到來(lái)的追獵大軍。按照 MaNa 的想法,“正常的人類(lèi)選手是不會(huì)走上那個(gè)高坡的”。
但是 AlphaStar 并不是人類(lèi),它猶豫兩次之后選擇直接攻上高地,由于追獵數(shù)量碾壓 MaNa,野兵營(yíng)還在源源不斷地輸出追獵,因此充電站幾乎沒(méi)有效果,幾輪點(diǎn)射之后,MaNa 的追獵所剩無(wú)幾,最終拉出所有農(nóng)民也沒(méi)能挽回?cái)【郑媸 ?/p>
在隨后的兩局錄像復(fù)盤(pán)中,我們看到了 AlphaStar 的強(qiáng)大微操和戰(zhàn)術(shù)思路,它會(huì)學(xué)習(xí)和嘗試人類(lèi)的封路戰(zhàn)術(shù),生產(chǎn)額外的農(nóng)民緩解騷擾帶來(lái)的影響。在一局比賽中,我們看到了 AlphaStar 使用了純追獵戰(zhàn)術(shù),僅靠強(qiáng)大的微操對(duì)抗 MaNa 的追獵、不朽和叉子組合的混合軍隊(duì)。
圖 | 實(shí)時(shí)戰(zhàn)局(圖源:Youtube)
AlphaStar 將 30 多個(gè)追獵分成 2-3 組,從 3 個(gè)方向包夾 MaNa 的進(jìn)攻部隊(duì),然后靠閃爍躲避 9 個(gè)不朽的攻擊,這種非人類(lèi)的操作徹底摧毀了 MaNa 的操作空間——無(wú)論他建造多少個(gè)不朽,都沒(méi)有辦法抵抗追獵大軍。“這種情況在同水平人類(lèi)對(duì)局中完全不會(huì)出現(xiàn),”MaNa 在演講中無(wú)奈地說(shuō)道。
最終 MaNa 也以 0-5 的成績(jī)敗北,人類(lèi)與 AlphaStar 的 10 局比賽結(jié)果全是失敗。
不過(guò)在演示直播中,DeepMind 似乎有些膨脹,選擇與 MaNa 進(jìn)行了一場(chǎng)即時(shí)表演賽,后者也表示,自己要為 Liquid 戰(zhàn)隊(duì)正名,捍衛(wèi)戰(zhàn)隊(duì)和人類(lèi)的榮譽(yù)。
雙方常規(guī)開(kāi)局,在前期并沒(méi)有進(jìn)行大規(guī)模交戰(zhàn)。但 MaNa 顯然是有備而來(lái),沒(méi)有使用使徒和先知騷擾,而是專(zhuān)注于偵查和攀升科技。在發(fā)現(xiàn) AlphaStar 依舊生產(chǎn)了茫茫多追獵后,MaNa 采用了棱鏡運(yùn)輸不朽的騷擾戰(zhàn)術(shù),同時(shí)補(bǔ)出不朽、叉子和執(zhí)政官等混合部隊(duì)。這可謂是整場(chǎng)比賽的神來(lái)之筆。
圖 | 三個(gè)先知圍著棱鏡看熱鬧(圖源:Youtube)
在空投不朽騷擾農(nóng)民時(shí),AlphaStar 并沒(méi)有選擇補(bǔ)出鳳凰打擊棱鏡,而是用不能攻擊空中單位的先知跟蹤棱鏡,輔以數(shù)十個(gè)追獵來(lái)回往返前線和家中。看起來(lái),它認(rèn)為追獵可以對(duì)空攻擊,因此不需要補(bǔ)出鳳凰,而且似乎所有追獵都在一個(gè)分組內(nèi),沒(méi)有分批分別執(zhí)行進(jìn)攻和防守任務(wù)。
于是我們看到了人類(lèi)玩家對(duì)抗 AI 的典型方法:逼迫后者陷入循環(huán)執(zhí)行某種任務(wù)的怪圈,使其浪費(fèi)巨額時(shí)間和資源,無(wú)法形成有效的局勢(shì)判斷。
就這樣,MaNa 消耗到了自己的兵力成型,然后一波壓制直接瓦解了 AlphaStar 的純追獵部隊(duì)。后者還嘗試?yán)冒鼕A的戰(zhàn)術(shù)阻擋 MaNa,但這一次 MaNa 的兵力充足,不朽對(duì)追獵的克制十分明顯,沒(méi)有留給 AlphaStar 一絲操作的機(jī)會(huì),全殲對(duì)手,獲得了寶貴的勝利。
圖 | MaNa 獲得表演賽勝利,露出了迷之微笑(圖源:Youtube)
雖然 TLO 和 MaNa 的錄像以全敗告終,宣告了 DeepMind AlphaStar 的實(shí)力已經(jīng)不可同日而語(yǔ),但這場(chǎng)表演賽充分暴露了 AlphaStar 目前的不足。
我們不難看出,盡管其神經(jīng)網(wǎng)絡(luò)已經(jīng)趨于長(zhǎng)期優(yōu)化,但似乎仍然會(huì)在一定程度上陷入局部最優(yōu),被人類(lèi)發(fā)現(xiàn)固定模式,落入圈套,而且從 5 個(gè)小叮當(dāng)抱團(tuán),到純追獵部隊(duì),都顯示出它對(duì)游戲兵種的理解尚不到位,如果最后一局它可以像人類(lèi)一樣直接派出鳳凰防守棱鏡,或許它將繼續(xù)憑借超強(qiáng)的微操一波推平 MaNa。
比賽回放過(guò)程中,主持人問(wèn)到 DeepMind 科學(xué)家,平時(shí)如何訓(xùn)練 AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過(guò)觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解星際爭(zhēng)霸的基本知識(shí)。這其中所使用到的訓(xùn)練資料不但包括專(zhuān)業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
圖 | DeepMind 科學(xué)家 Oriol Vinyals(圖源:Youtube)
圖 | DeepMind 科學(xué)家 David Silver(圖源:Youtube)
之后,團(tuán)隊(duì)會(huì)使用一個(gè)稱(chēng)為“Alpha League”的方法。在這個(gè)方法中,Alpha League 的第一個(gè)競(jìng)爭(zhēng)對(duì)手就是從人類(lèi)數(shù)據(jù)中訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
圖 | Alpha League 示意圖(圖源:Youtube)
然后,這些 agent 通過(guò)強(qiáng)化學(xué)習(xí)過(guò)程與“Alpha League”中的其他競(jìng)爭(zhēng)對(duì)手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過(guò)調(diào)整它們的個(gè)人學(xué)習(xí)目標(biāo)來(lái)鼓勵(lì)競(jìng)爭(zhēng)對(duì)手朝著特定方式演進(jìn),比如說(shuō)旨在獲得特定的獎(jiǎng)勵(lì)。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱(chēng)之為“the nash of League”,這就是 TLO 所對(duì)戰(zhàn)的5個(gè)。
為什么是"星際爭(zhēng)霸 2"?
比賽前期,DeepMind 與暴雪就聯(lián)合發(fā)布了關(guān)于此次比賽的重磅預(yù)告:將在北京時(shí)間周五凌晨 2 點(diǎn)展示 Deepmind 研發(fā)的 AI 在即時(shí)戰(zhàn)略游戲星際爭(zhēng)霸 2 上的最新進(jìn)展。如今,這個(gè)進(jìn)展終于揭開(kāi)神秘面紗。
而 DeepMind 開(kāi)發(fā)星際爭(zhēng)霸 2 AI,最早可以追溯到 2016 年。當(dāng)時(shí),DeepMind 研究科學(xué)家 Oriol Vinyals 在暴雪嘉年華現(xiàn)場(chǎng)透露 Deepmind 與星際爭(zhēng)霸 2 緊密合作的最新進(jìn)展及未來(lái)的計(jì)劃。在 AlphaGo 在 2017 年圍棋大獲全勝之后,DeepMind 開(kāi)始對(duì)外宣布,團(tuán)隊(duì)正在著手讓人工智能征服星際爭(zhēng)霸 2,這款游戲?qū)θ斯ぶ悄茉谔幚韽?fù)雜任務(wù)上的成功提出了"重大挑戰(zhàn)"。
在 2018 年 1 月的 EmTech 大會(huì)上,谷歌 DeepMind 科學(xué)家 Oriol Vinyals 曾對(duì) DT 君表示,第一版的 AlphaGo 擊敗了樊麾,后來(lái)下一個(gè)版本在韓國(guó)和李世石進(jìn)行了對(duì)弈并取得了勝利。再后來(lái)進(jìn)一步地訓(xùn)練網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)比之前強(qiáng)了三倍,贏了柯潔和其他專(zhuān)業(yè)棋手。團(tuán)隊(duì)是從零開(kāi)始,一點(diǎn)點(diǎn)積累積數(shù)據(jù)訓(xùn)練,最后戰(zhàn)勝了專(zhuān)業(yè)棋手。而除了棋類(lèi)游戲以外,DeepMind 比較感興趣的,就是游戲星際爭(zhēng)霸 2。
繼圍棋之后,DeepMind 為什么要選擇星際爭(zhēng)霸 2 這款游戲?yàn)橄乱粋€(gè)目標(biāo)呢?
星際爭(zhēng)霸 2 是由美國(guó)著名游戲公司暴雪娛樂(lè)(Blizzard Entertainment)推出的一款以星際戰(zhàn)爭(zhēng)為題材的即時(shí)戰(zhàn)略游戲。星際爭(zhēng)霸 2 具備策略性、競(jìng)爭(zhēng)性的特性,在全球都非常火爆,并且每年都會(huì)舉辦大量的比賽,因此也有著海量的玩家基礎(chǔ)。
圖丨谷歌 DeepMind 科學(xué)家 Oriol Vinyals(來(lái)源:DeepTech)
據(jù) Oriol Vinyals 當(dāng)時(shí)透露,星際爭(zhēng)霸 2 是非常有趣和復(fù)雜的游戲,這個(gè)游戲基本上是建造一些建筑物以及單位,在同一個(gè)地圖里不同的組織會(huì)相互競(jìng)爭(zhēng)。在這個(gè)游戲中,哪怕只是建造建筑物,也需要做出許多決策。除此之外,還要不斷收集和利用資源、建造不同的建筑物、不斷擴(kuò)張,因此整個(gè)游戲非常具有挑戰(zhàn)性。
而且,和圍棋任務(wù)最大的不同在于,圍棋可以看到整個(gè)棋盤(pán),但是在星際爭(zhēng)霸 2 中我們通常無(wú)法看到整個(gè)地圖,需要派小兵出去偵查。另外,游戲是不間斷進(jìn)行的。整個(gè)游戲甚至?xí)谐^(guò) 5000 步的操作。對(duì)于增強(qiáng)學(xué)習(xí)這種方法來(lái)說(shuō),除了上下左右這些普通的移動(dòng),用鼠標(biāo)點(diǎn)擊界面控制不同物體的移動(dòng)以及不同的行為也是非常難的。
星際爭(zhēng)霸 2 的這些特質(zhì),恰恰是人工智能在創(chuàng)新之路上需要挑戰(zhàn)的——面對(duì)許多難以預(yù)測(cè)的突發(fā)情況,人工智能必須要既作出正確的對(duì)策,還要根據(jù)實(shí)際情況細(xì)微的調(diào)整對(duì)策。
(來(lái)源:DeepMind)
星際爭(zhēng)霸 2 作為"即時(shí)戰(zhàn)略"游戲,其"即時(shí)"和"戰(zhàn)略"的特性無(wú)疑是鍛煉 AI 的最佳途徑之一。就拿"即時(shí)"來(lái)說(shuō),或許對(duì)于人類(lèi),星際 2 的那 300 多個(gè)基礎(chǔ)操作的"操作空間"(Action Space)并不龐大。但是對(duì)于機(jī)器,星際 2 的分級(jí)操作,外加"升科技"所帶來(lái)指令的變化,再加上地圖的體積,其操作空間是無(wú)窮大的。比如"農(nóng)民建房子"這個(gè)簡(jiǎn)單的行動(dòng)就有 6 個(gè)不同的步驟:點(diǎn)擊滑動(dòng)鼠標(biāo)選擇單位,B 選擇建造,S 選擇供給站,滑動(dòng)鼠標(biāo)選擇位置,點(diǎn)擊建造。僅在一個(gè) 84x84 的屏幕上,機(jī)器的操作空間有大約 1 億個(gè)可能的操作。
AlphaGo Zero 創(chuàng)造者:"這個(gè)比圍棋難多了"
在 DeepMind 與暴雪長(zhǎng)期以來(lái)的合作中,有幾個(gè)重要節(jié)點(diǎn):
2017 月 8 月,星際爭(zhēng)霸 2 開(kāi)發(fā)團(tuán)隊(duì)發(fā)布人工智能研究環(huán)境 SC2LE(StarCraft II Learning Environment),它包括一個(gè)能讓研究人員和開(kāi)發(fā)人員與游戲掛鉤的機(jī)器學(xué)習(xí) API,開(kāi)放了 65000 場(chǎng)比賽的數(shù)據(jù)緩存,以及 50 萬(wàn)次匿名游戲回放和其他研究成果。其中一些數(shù)據(jù)對(duì)于訓(xùn)練和輔助序列預(yù)測(cè)和長(zhǎng)期記憶研究非常有用,當(dāng)時(shí)團(tuán)隊(duì)也希望通過(guò)這些工具,幫助研究人員加快星際爭(zhēng)霸 2 AI 的開(kāi)發(fā)速度。
圖丨 Julian Schrittwieser(來(lái)源:麻省理工科技評(píng)論)
SC2LE 發(fā)布不久以后,AlphaGo Zero 創(chuàng)造者之一、《麻省理工科技評(píng)論》TR 35 獲得者 Julian Schrittwieser 在在一場(chǎng)網(wǎng)絡(luò)互動(dòng)中表示:星際爭(zhēng)霸 2 的 AI 尚處早期,研發(fā)難度比圍棋人工智能更大,在 AlphaGo Zero 誕生之后,團(tuán)隊(duì)希望能以此為契機(jī),在 AI 研究上再次實(shí)現(xiàn)突破。
團(tuán)隊(duì)與星際爭(zhēng)霸 2 相關(guān)的第一篇公開(kāi)論文,則出現(xiàn)在 2018 年 6 月。當(dāng)時(shí),DeepMind 在 arXIv 發(fā)布其最新研究成果:用關(guān)系性深度強(qiáng)化學(xué)習(xí)在星際 2 六個(gè)模擬小游戲(移動(dòng)、采礦、建造等)中達(dá)到了當(dāng)前最優(yōu)水平,其中四個(gè)超過(guò)人族天梯大師組玩家。
之后,直到 2018 年 11 月,在暴雪的一場(chǎng)展會(huì)上,我們才再次得知這個(gè)項(xiàng)目的進(jìn)展——DeepMind 團(tuán)隊(duì)曾展示了能夠執(zhí)行基本的集中策略以及防御策略的人工智能進(jìn)展:在掌握游戲的基本規(guī)則后,它就會(huì)開(kāi)始表現(xiàn)出有趣的行為,比如立即沖向?qū)κ止簦芯繄F(tuán)隊(duì)還公布其 AI 在對(duì)抗"瘋狂"電腦時(shí)也有 50% 的勝率。
對(duì)比 3 個(gè)月后的今天,從 DeepMind AI 在比賽中的表現(xiàn),不得不說(shuō)其進(jìn)步之快。
接下來(lái)另一場(chǎng)值得期待的"大戰(zhàn)",將發(fā)生在 2 月 15 日:在星際爭(zhēng)霸 2 AI 直播預(yù)告公布后,芬蘭電競(jìng)戰(zhàn)隊(duì) ENCE 也發(fā)布通告,稱(chēng) WCS 星際爭(zhēng)霸 2 全球總冠軍芬蘭選手 Serral 將在與星際 2 人工智能上演一場(chǎng)人機(jī)大戰(zhàn)。屆時(shí) AI 與人類(lèi)頂尖選手的對(duì)戰(zhàn),或許還將會(huì)再次創(chuàng)造新的歷史事件。
圖 | ENCE通告(圖源:Twitter)
今年的"人機(jī)大戰(zhàn)"看什么?打造通用性 AI 依然"道阻且長(zhǎng)"
近幾年,除了 DeepMind 以外,已經(jīng)有越來(lái)越多的人工智能公司或者研究機(jī)構(gòu)投身到開(kāi)發(fā)游戲類(lèi)AI的浪潮中,例如 OpenAI 和騰訊的 AI lab 等等。
歸根結(jié)底,這些團(tuán)隊(duì)對(duì)游戲AI的熱情,恐怕都源于打造通用型人工智能的這一終極目標(biāo):游戲AI的研發(fā)將會(huì)進(jìn)一步拓寬人類(lèi)對(duì)于AI能力的認(rèn)知,這樣的研究最終將探索的問(wèn)題 AI 能否能夠通過(guò)游戲規(guī)則進(jìn)行自主學(xué)習(xí),達(dá)到更高層次的智能乃至通用型人工智能。例如,在游戲AI的設(shè)計(jì)中,增強(qiáng)學(xué)習(xí)算法的改進(jìn)將至關(guān)重要。增強(qiáng)學(xué)習(xí)是一種能夠提高 AI 能力的核心算法,它讓 AI 能夠解決具有不確定性動(dòng)態(tài)的決策問(wèn)題(比如游戲 AI,智能投資,自動(dòng)駕駛,個(gè)性化醫(yī)療),這些問(wèn)題往往也更加復(fù)雜。
而 DeepMind 團(tuán)隊(duì)的成果已經(jīng)為此帶來(lái)了一絲曙光—— AlphaGo Zero在短時(shí)間內(nèi)精通圍棋、象棋、國(guó)際象棋三種棋類(lèi)游戲,已有棋類(lèi)通用AI雛形。棋類(lèi)游戲之后,最值得期待的進(jìn)展,就是各家開(kāi)發(fā)的AI在即時(shí)戰(zhàn)略類(lèi) RTS 游戲或多人在線競(jìng)技類(lèi) MOBA 游戲上的表現(xiàn)了。此前,騰訊 AI Lab 負(fù)責(zé)人之一姚星就介紹過(guò),在游戲AI的研究上,騰訊 AI Lab 已從圍棋 AI “絕藝”等單個(gè) AI 的完全信息博弈類(lèi)游戲,轉(zhuǎn)移到規(guī)則不明確、任務(wù)多樣化、情況復(fù)雜的游戲類(lèi)型,如星際爭(zhēng)霸和 Dota2 等復(fù)雜的即時(shí)戰(zhàn)略類(lèi) RTS 游戲或多人在線競(jìng)技類(lèi) MOBA 游戲。
圖丨 OpenAI 宣布他們所打造的一個(gè) AI 機(jī)器人已經(jīng)在電子競(jìng)技游戲 Dota 2 中擊敗了一個(gè)名為 Dendi 的人類(lèi)職業(yè)玩家(來(lái)源:OpenAI)
在剛剛過(guò)去的2018年,OpenAI 開(kāi)發(fā)出的 AI OpenAI Five 就是針對(duì) Dota2 開(kāi)發(fā)的AI,但是它與人類(lèi) PK 的過(guò)程可謂充滿戲劇性。2018 年 8 月初,OpenAI Five 戰(zhàn)勝一支人類(lèi)玩家高水平業(yè)余隊(duì)伍(天梯 4000 分左右),然而,到了 8 月底 OpenAI Five 被兩支專(zhuān)業(yè)隊(duì)伍打敗, AI 提前結(jié)束了其在本屆 DOTA 2 國(guó)際頂尖賽事 TI 8 的旅程。回顧那次失敗的過(guò)程,其實(shí)OpenAI 的系統(tǒng)仍然無(wú)法全面理解 DOTA 復(fù)雜的游戲系統(tǒng)和規(guī)則。
現(xiàn)在,DeepMind 的星際爭(zhēng)霸2 AI 已經(jīng)以其超強(qiáng)實(shí)力打響游戲 AI 2019 年第一戰(zhàn),接下來(lái)還有哪些游戲AI將橫空出世呢?各大游戲AI又將如何邁向通用人工智能,讓我們拭目以待。
(來(lái)源:DeepTech深科技)