操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    們此前有報道,DeepMind 公司旗下人工智能“阿法星”(AlphaStar)將會加入《星際爭霸2》的天梯戰局,在小部分游戲對局中匿名和玩家進行對戰。

    近日,官方公布了這個 AI 的天梯戰績,僅在六周時間內,“阿法星”就打進了《星際爭霸2》前 0.2% 排名的人類玩家之列,成為了首個在游戲中達到“宗師”排名的非人類。

    在這場較量中,“阿法星”先是通過觀察研究人類玩家的行為,再依次與游戲中的不同種族進行對抗,以探測對方的弱點。但是與先前挑戰的其他線性游戲不同,《星際爭霸2》的地圖相當開闊,因此玩家在比賽中可能會采取無數種行為,這無疑給 AI 的計算帶來了極大的挑戰。

    與此同時,DeepMind 還把“阿法星”的操作執行速度限制在了正常人類水平,讓它不能夠利用超人類的速度(如每分鐘執行上萬次動作)進行游戲,從而讓 AI 更加依賴真正的戰術和運營策略與人類玩家對抗。

    結果,“阿法星”目前在《星際爭霸2》已在四個賽區達到了天梯排位的“宗師”段位,均位于排名前 200,超過了 99.8% 的人類玩家。

    DeepMind 于 2016 年憑借“阿法狗”程序與人類圍棋世界冠軍之戰中大獲全勝而成名;其后該程序升級為“阿法元”(AlphaGo Zero),能夠從空白狀態起,不需要任何人類棋譜輸入的條件下自學圍棋;下一代“阿法零”(AlphaZero)則接連擊敗了國際象棋、將棋、圍棋三個世界冠軍級的電腦程序,成為了全能棋王。而在今年年初,“阿法星”就曾在《星際爭霸2》中擊敗了兩位來自 Liquid 戰隊的職業玩家。

    更新:原文中“大師”段位有誤,已修正為“宗師”。

    來源:Kotaku

    情要從1年前兩個知乎水友的爭論說起,在評論國內星際選手的實力時,有人說星際2選手實力和成績更好,有人說星際1選手實力在世界上僅次韓國,傲視歐美,當然更強,一下就是爭論實況。

    東城綾:別扯淡了,任何國內星際一選手都沒有現在國內星際二選手在世界范圍內的實力高

    專業背鍋俠:現在國內星際2打歐美人都困難,當年pj打烏克蘭dimaga,dimaga全場門都沒出,就蟲族房子能飛出去,中國四大天王出去A歐美老,歐美人一丁點機會都沒有,哪像現在neeb,snute來中國線下基本穩冠軍。

    東城綾:你也說現在啊,星際2國內選手又不是沒強過,我記得最強的時候還能和棒子打一打,星際1的時候歐美也強過,并不是中國人任何時候都是非韓最強。

    專業背鍋俠:星際1歐美強的時候屬于未開化年代,你要說grrr那個年代,那時候星際1中國還拿過世界冠軍冠軍呢,根本沒有參考意義。

    而且國內星際1怎么不能和棒子打了,pj當年wcg打掉韓國當紅一哥ipxzerg的時候算不算打一打,中國星際2最強的時候,只有jim大神的13年,但兩個巨像沒a死人沒出線,狀態最好的科隆站被簽證官雙殺,iem最后被jaedong翻盤,最好成績只有西瓜的wcg亞軍,還是在10年剛開始的時候。

    然后就是李培楠時隔7年中國選手打進gslS級,這時候韓國星際2二流選手都快gg了,星際1時期,韓國spl非主力打pj還真不一定打的過,10年羅賢都轉型打德州撲克了,中韓對抗賽上手起刀落斬下了stx主力,戰隊主力培養的接班人,冉冉升起的韓國新星bogas,也就是后來名震天下的呂布innovation算不算打一打?

    現在你找個能A呂布的中國人看看?

    東城綾:PJ在WCG上的表現當然不算能和棒子打一打,PJ我沒記錯在韓國聯賽上場次數是0。 WCG亞軍還不夠?星際1連WCG亞軍都沒有,什么雙打表演賽就別說了。

    專業背鍋俠:要看就看中國選手對一流韓國選手的對抗,星際2找一下tails這種二流選手贏根本沒意義,人家又不是一流,就好像羅賢贏tossgirl根本沒什么吹的,應該的贏,本來比二流韓國人要強。

    然后現在中國選手ia和李培楠能偶爾贏一到兩局,這還是韓國星際已經沒有戰隊的情況下打的,以前韓國有職業賽的時候,只有jim大神一個人能算得上抗韓英雄,但最后也沒能出成績,非常可惜。

    抗韓星際1星際2第一人只有pj,這個沒得爭,wcg韓國解說都能用普通話念出pj的名字,沙俊春,這是對他最好的尊重,pj 07年wcg世界亞軍,八進四淘汰了當時韓國最頂級的蟲王savior,你可以百度沙俊春謝謝,這是中國星際最高的世界大賽榮譽。

    東城綾:對啊,星際1還有抗韓英雄的落,雖然我不怎么記得了,但是你捫心自問,PJ最巔峰在韓國職業圈是什么水平。韓國spl非主力打pj還真不一定打的過,你說得沒錯,但是這句話也是說PJ也不一定能贏過這些非主力,你說的那些星際2選手起碼那段時間還能和棒子最強打一打,即使1-9開或者2-8開。

    專業背鍋俠:你知道星際1韓國人有多領先嗎?我就問你,pj當年能在wcg淘汰韓國一線頂級選手,星際2有誰能做到?

    從xiaot,macsed,jim,到ia,到李培楠,請說,誰在世界大賽能淘汰韓國星際2頂級選手?who?當年savior,ipx的zvp強到什么程度你也可以百度,zvp一年就輸幾場,就跟現在呂布一個檔次的人,被pj戰術擊倒了。

    東城綾:是啊,就是因為星際1韓國人領先太多啊,所以一杯賽里贏一場能說明什么?希臘還是歐洲冠軍呢,希臘在歐洲足球里算什么水平?

    專業背鍋俠:在韓國spl能出場是個什么概念,韓國spl一共,skt,kt,cj,三星,oz,stx,wemadefox,mbcgame,空軍,海特,estro,熊津,這是韓國星際最屌的時候,這么多戰隊,擠進前五才有出場。

    pj LX當年去的是skt,屬于一線豪門,跟魚腩estro這種有本質區別,要想spl出場你得要比他們戰隊神族主力強才行,相當于你要比best,bisu強或者稍弱,你才有資格出場,否則你只是練習生。

    那個年代,全世界哪個國家有這么高度化的電競職業聯賽體系和隊伍?所以這才是韓國星際恐怖實力的根源,跟早年grrr和現在無戰隊的星際2根本不可同日而語,06-08這幾年,中國這邊職業化都沒這么發達,能有pj,lx,91這樣的人已經非常罕見了。

    東城綾:罕見跟水平高低有什么關系,厲害就是厲害,菜就是菜,沒有借口好找。

    專業背鍋俠:也就當年國內電競關注度不高,像pj贏cj savior這樣的頂級實力根本圈外人不知道,換現在就好比如ia 暴雪嘉年華淘汰了呂布,lol rng淘汰了skt一樣,第二天頭條沒跑的事情

    東城綾:這么多年星際是我玩的時間第二多的游戲,雖然我菜,但是我知道他們有多強,跟棒子比差距有多大,現在星際2我也不關注啊,頭條我也不知道的。PJ贏了我當時應該知道,不過IPX輸PJ說沒有一點那啥。。。

    專業背鍋俠:輸就輸,wcg韓國一共三人,跟現在一堆韓國人打國際比賽不同,等于韓國最強前三來打wcg,中國人能贏,就已經很爆炸了。

    當然,后面有人說ipx這場打了假賽,這個誰也說不清楚,因為假賽門是10年爆出的,那個比賽是07年,當年馬本作3月其實已經輸給bisu的zvp,他的zvp不是無敵,輸給國際選手也不是不可能,而且當時pj的應對策略確實是后來韓國人應對的打法。

    星際1星際2我都玩了很多年,星際1棒子是很厲害,但pj抗韓第一人這個地位沒得動搖,至少人家大賽斬了韓國頂級,星際2最高榮譽還是西瓜10年的世界亞軍,而且一路都沒韓國人,比榮譽都比輸了。

    星際1中國還拿過wcg第四呢,前三韓國人,星際2?前四都難,暴雪嘉年華門票都擠不進,打歐美老都吃力,當年pj,91,去歐美,都是一哥存在。

    東城綾:那可能是我不太清楚了,我是憑印象的,那幾年看論壇看直播印象里星際2國內成績還可以,水平差距不怎么大。

    專業背鍋俠:05年storm WCG第四,06年羅賢第四,07年pj第二,08年lovett第四,09年比較慘,自己家門口,fengzi和toodming都小組沒出線,唯一出線的pj淘汰賽第一輪面對司令stork,在先贏一局的情況下,第二局,大優對局勢判斷錯誤導致遺憾最后1:2惜敗是最可惜的。

    司令屬于韓國天王級別了,pj跟這些人打都是正常打,不放戰術打基本功,能1:2,他絕對有實力去spl打主力,只不過當時在skt而已,中國星際世界榮譽大抵如此,比星際2好很多,星際2唯一拿得出手的就西瓜那個亞軍,四強。。。不存在滴。

    所以,結論意見高下立判了吧!

    策 栗子 夏乙 發自 凹非寺

    量子位 & 騰訊科技 聯合出品



    5分36秒的戰斗后,LiquidMaNa打出:GG。

    DeepMind開發的全新AI程序AlphaStar,在今天凌晨的《星際爭霸2》人機大戰直播節目中,輕松戰勝2018 WCS Circuit排名13、神族最強10人之一的MaNa。

    實際上,AlphaStar以10-1的戰績,全面擊潰了人類職業高手。

    戰敗的不止MaNa,還有另一位高手TLO。

    人工智能在《星際爭霸2》上的進步速度,遠遠超過了此前外界的預期。畢竟與下圍棋這件事相比,星際2要難得多。



    在圍棋世界,動作空間只有361種,而星際2大約是1026

    與圍棋不同,星際玩家面對的是不完美信息博弈。“戰爭迷霧”意味著玩家的規劃、決策、行動,要一段時間后才能看到結果。

    這意味著,AI需要學到長遠的布局謀篇的策略能力。

    即便如此,AlphaStar最終還是學會了如何打星際2。即便此次黃旭東保持克制、誰也沒奶,但既定的事實已經無法更改。



    直播進行到一半,就有網友在他的微博下留言:比國足輸伊朗還慘。

    盡管10戰連敗,人類職業高手仍然對人工智能不吝稱贊:不可思議。MaNa說,我從AI身上學到了很多。以及,今天最后一局MaNa也為人類爭取到了僅有的勝利!

    賽后,TLO的說法跟李世乭輸給AlphaGo后很像。他說:相信我,和AlphaStar比賽很難。不像和人在打,有種手足無措的感覺。他還說,每局比賽都是完全不一樣的套路。



    為什么AI這么強?別的先不展開講,這里只說一個點。其實在比賽之前,AlphaStar的訓練量,相當于打了200年實時對抗的星際2。

    總而言之,谷歌DeepMind歷時兩年,終于讓人工智能更進一步,AlphaGo有了新的接班人AlphaStar。

    DeepMind CEO哈薩比斯說,AlphaStar的技術未來可用于預測天氣、氣候建模等需要very long sequences的應用場景。

    一次里程碑意義的戰斗,落下帷幕。

    一次人類的新征程,正式開場。

    AlphaStar:10-1

    實際上,今天的人機大戰主要內容并不是直播,而是回顧人機大戰的結果。簡單交待一下相關信息,比賽在Catalyst地圖上進行,這張地圖中文名叫“匯龍島”。



    圖上設置了很多隘口和高地,網友說,這張圖群龍盤踞,大戰一觸即發,官方稱“能創造出許多有意思的進攻路徑和防守陣形”。

    游戲版本是去年10月的4.6.2,雙方都使用神族(星靈)。

    第一場比賽,發生在去年12月12日

    AlphaStar對TLO。



    第一局人類選手TLO開局兩分鐘后就率先發難,不過AlphaStar扛下來,并且逐漸扭轉了戰局,迅速累積起資源優勢。

    5分鐘左右,AlphaStar以追獵者為主要作戰單位,開始向TLO發起試探性的攻擊。并且在隨后的時間里,持續對TLO展開騷擾,直至取勝。

    DeepMind介紹,比賽中,實際上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高達幾千甚至數萬。



    前三局基本都是這樣。TLO說第四局就像換了個AI一樣,打法完全變了,很接近典型神族打法。

    當然,他又輸了。這個感覺沒錯,其實他每次對陣的AI都不一樣……



    最后的結果是0-5,TLO一局沒贏。不過他說:如果我多練練神族,我能輕易打敗這些AI。畢竟TLO這些年一直主要在練蟲族。

    五局比賽打完,DeepMind團隊為了慶祝喝了點酒,產生了一個大膽的想法:

    再訓練訓練,和玩神族的職業選手打一場。

    于是,快到圣誕節的時候,他們請來了Liquid的神族選手MaNa。

    第二場比賽,發生在去年12月19日。

    據說,MaNa五歲就開始打星際了。

    在對戰MaNa之前,AlphaStar又訓練了一個星期。雙方展開較量之前,MaNa只知道TLO輸了,不知道是5-0,而且,明顯沒有TLO上次來那么緊張。

    面對神族最強10人之一,DeepMind認為比賽會很精彩,但對勝利沒什么自信。



    雙方第一局對決,AlphaStar在地圖的左上角,MaNa在右下。4分鐘,AlphaStar派出一隊追獵者,開始進攻。基本上算是一波就推了MaNa。

    正如開始所說,5分36秒,MaNa打出GG。

    然后第二局也輸了。這時候MaNa緊張起來,第三局決心翻盤。7分30秒,AlphaStar出動了一支大軍打到MaNa家,MaNa GG。

    最精彩的是第四局,MaNa的操作讓現場解說嘆為觀止,他自己賽后也坦言”真是盡力了“。但最后,他的高科技軍團在一群追獵者的360度包圍下,全滅。MaNa打出了GG。



    而且,AlphaStar完成360度包圍這一高難度操作時,APM只有250左右。

    第四局全程:

    視頻地址:https://v.qq.com/x/page/f0831cwrjm1.html

    需要說明的是,其實在這局比賽中,AlphaStar的APM幾乎已經失控,幾度飆到1000多。量子位抓到了一些這樣的瞬間。



    MaNa說,輸了好失望,我能出的單位都出了,最后輸給了一群追獵者?他還說,AlphaStar的微操太厲害了。incredible。跟AI學東西,這種經歷挺好。

    人類扳回一城

    今天的直播的最后,是現場的表演局(Exhibition game),直播MaNa對戰AlphaStar。

    在這場比賽中,MaNa采用了一種更激進的打法,一開局就造了更多的農民(探機),這說不定是上個月剛剛跟AlphaStar學來的戰術。

    12分鐘后,MaNa一路拆掉AlphaStar的各種建筑,擊敗了無法打出GG的AlphaStar。

    總算是幫人類挽回一些顏面。

    這場比賽,全程在此:

    視頻地址:https://v.qq.com/x/cover/5gerx2xant7bu2w/i0831rwwv4r.html

    另外DeepMind也放出了全部11局對決的視頻,有興趣可以前往這個地址查看:

    https://deepmind.com/research/alphastar-resources/

    之前的10局比賽,DeepMind還拍成了一個紀錄片。

    視頻地址:https://v.qq.com/x/page/g08319vjvpr.html

    解讀AlphaStar

    DeepMind和暴雪周三發出預告后,熱情的網友們就已經把各種可能的技術方案猜了一遍。

    現在答案揭曉:

    AlphaStar學會打星際,全靠深度神經網絡,這個網絡從原始游戲界面接收數據 (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。

    再說得具體一些,神經網絡結構對星際里的那些單位,應用一個Transformer,再結合一個深度LSTM核心,一個自動回歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。

    DeepMind團隊相信,這個進化了的模型,可以為許多其他機器學習領域的難題帶來幫助:主要針對那些涉及長期序列建模、輸出空間很大的問題,比如語言建模和視覺表示。

    AlphaStar還用了一個新的多智能體學習算法

    這個神經網絡,經過了監督學習和強化學習的訓練。

    最開始,訓練用的是監督學習,素材來自暴雪發布的匿名人類玩家的游戲實況。

    這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學習游戲的宏觀和微觀策略。

    最初的智能體,游戲內置的精英級 (Elite) AI就能擊敗,相當于人類的黃金段位 (95%) 。

    而這個早期的智能體,就是強化學習的種子。



    在它的基礎之上,一個連續聯賽 (Continuous League) 被創建出來,相當于為智能體準備了一個競技場,里面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:

    從現有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學習。

    這種新的訓練形式,是把從前基于種群 (Population-Based) 的強化學習思路又深化了一些,制造出一種可以對巨大的策略空間進行持續探索的過程。

    這個方法,在保證智能體在策略強大的對手面前表現優秀的同時,也不忘怎樣應對不那么強大的早期對手。



    隨著智能體聯賽不斷進行,新智能體的出生,就會出現新的反擊策略 (Counter Strategies) ,來應對早期的游戲策略。

    一部分新智能體執行的策略,只是早期策略稍稍改進后的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。

    早期的聯賽里,一些俗氣的策略很受歡迎,比如用光子炮和暗黑圣堂武士快速rush。

    這些風險很高的策略,在訓練過程中就被逐漸拋棄了。同時,智能體會學到一些新策略;比如通過增加工人來增加經濟,或者犧牲兩個先知來來破壞對方的經濟。

    這個過程就像人類選手,從星際爭霸誕生的那年起,不斷學到新的策略,摒棄舊的策略,直到如今。

    除此之外,要鼓勵聯賽中智能體的多樣性,所以每個智能體都有不同的學習目標:比如一個智能體的目標應該設定成打擊哪些對手,比如該用哪些內部動機來影響一個智能體的偏好。

    而且,智能體的學習目標會適應環境不斷改變。



    神經網絡給每一個智能體的權重,也是隨著強化學習過程不斷變化的。而不斷變化的權重,就是學習目標演化的依據。

    權重更新的規則,是一個新的off-policy演員評論家強化學習算法,里面包含了經驗重播 (Experience Replay) ,自我模仿學習 (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機制。

    為了訓練AlphaStar,DeepMind用谷歌三代TPU搭建了一個高度可擴展的分布式訓練環境,支持許多個智能體一起從幾千個星際2的并行實例中學習。每個智能體用了16個TPU。

    智能體聯賽進行了14天,這相當于讓每一個智能體都經歷了連打200年游戲的訓練時間。

    最終的AlphaStar智能體,是聯賽中所有智能體的策略最有效的融合,并且只要一臺普通的臺式機,一塊普通的GPU就能跑。

    AlphaStar打游戲的時候,在看什么、想什么?



    上圖,就是DeepMind展示的AI打游戲過程。

    原始的觀察里數據輸入到神經網絡之中,產生一些內部激活,這些激活會轉化成初步的決策:該做哪些操作、點擊什么位置、在哪建造建筑等等。另外,神經網絡還會預測各種操作會導致的結果。

    AlphaStar看到的游戲界面,和我們打游戲時看到的小地圖差不多:一個小型完整地圖,能看到自己在地圖上的所有單位、以及敵方所有可見單位。

    這和人類相比有一點點優勢。人類在打游戲的時候,要明確地合理分配注意力,來決定到底要看哪一片區域。

    不過,DeepMind對AlphaStar游戲數據的分析顯示,它觀察地圖時也有類似于人類的注意力切換,會平均每分鐘切換30次左右關注的區域。

    這,是12月打的10場游戲的情況。

    今天直播中和MaNa對戰的AI,就略有不同。

    連勝之后,DeepMind團隊總會有大膽的想法冒出來——他們迭代了第二版AlphaStar,這一版和人類觀察地圖的方式是一樣的,也要不停選擇將視野切換到哪,只能看到屏幕上視野范圍內的信息,而且只能在這個范圍內操作。

    視野切換版AlphaStar經過7天訓練,達到了和第一版差不多的水平。



    不過,這個版本的智能體原型還是在今天的直播中輸給了MaNa,成為了10-1里的1。

    DeepMind對他們的AI仍然充滿信心,他們在博客中說,這個智能體只訓練了7天,希望能在不久的將來,能測試一個完全訓練好了的視野版智能體。

    現在,AlphaStar還只能玩神族。DeepMind說,他們為了在內部測試中減少訓練時間和變量,決定先只玩一個種族。

    不過,這不代表它就學不會其他種族。同樣的訓練流程,換個種族還是一樣用。

    星際界的樊麾和帶路黨

    這次人機大戰背后,有很多人的努力,我們這次重點介紹三個人。

    首先是AlphaStar的兩個人類對手。

    TLO是一位德國職業星際2選手,原名Dario Wünsch,1990年7月13日出生。現在效力于職業游戲戰隊Liquid。

    之前TLO有個稱號:隨機天王。星際2的公測階段,他使用哪個種族都得心應手,不過后來,TLO開始逐漸專攻于蟲族。

    根據官方公布的數據,TLO在2018 WCS Circuit排名:44。



    國內關于TLO的資料,不少都是幾年前的對戰,現在TLO應該已經在自己職業生涯的末期,可以算是一位久經沙場的老將。

    MaNa是一位出生于波蘭的職業星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。

    與TLO相比,MaNa是一個正值當打之年的選手。

    而且,他更擅長的是神族。盡管他打出GG的速度更快……

    MaNa去年獲得WCS Austin的第二名。根據官方公布的數據,他在2018 WCS Circuit排名:13。



    MaNa和TLO和AlphaStar的對戰,發生在去年12月。地點在倫敦,就是DeepMind的總部。這不禁讓人想起當年AlphaGo的故事。

    AlphaGo名不見經傳時,也是悄悄把樊麾請到了倫敦,然后把樊麾殺得有點懷疑“棋”生。然后開始向全世界公布突破性的進展。

    TLO和MaNa,應該就是星際2界的樊麾了吧。

    第三個是AlphaStar的教父:Oriol Vinyals。

    他是DeepMind星際2項目的核心負責人。我們在此前的報道里介紹過他。1990年代,十幾歲的Oriol Vinyals成了西班牙《星際爭霸》全國冠軍。

    他之所以玩這款科幻策略游戲,是因為比其他打打殺殺的游戲更需要動腦子。維紐斯說:“沒上大學之前,這款游戲就讓我在生活中懷有更強的戰略思維。”

    Vinyals的戰略思維的確獲得了回報:在巴塞羅那學習了電信工程和數學之后,維紐斯去過微軟研究院實習,獲得了加州大學伯克利的計算機博士學位,接著加入谷歌大腦團隊,開始從事人工智能開發工作,然后又轉入谷歌旗下DeepMind團隊。

    他又跟“星際爭霸”打起了交道。

    但這一次不是他親自玩,而是教給機器人怎么玩。在人工智能成為全球最優秀的圍棋選手后,星際成為了下一個攻克目標。

    AI打星際的意義

    早在2003年人類就開始嘗試用AI解決即時戰略(RTS)游戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復雜。



    直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉向了《星際2》。

    與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。

    在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。

    這意味著玩家的規劃、決策、行動,要一段時間后才能看到結果。這類問題在現實世界中具有重要意義。

    為了獲勝,玩家必須在宏觀戰略和微觀操作之間取得平衡。

    平衡短期和長期目標并適應意外情況的需要,對脆弱和缺乏靈活性的系統構成了巨大挑戰。

    掌握這個問題需要在幾個AI研究挑戰中取得突破,包括:

    • 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓練過程需要不斷探索和拓展戰略知識的前沿。
    • 不完美信息:不像象棋或圍棋那樣,棋手什么都看得到,關鍵信息對星際玩家來說是隱藏的,必須通過“偵察”來主動發現。
    • 長期規劃:像許多現實世界中的問題一樣,因果關系不是立竿見影的。游戲可能需要一個小時才能結束,這意味著游戲早期采取的行動可能在很長一段時間內都不會有回報。
    • 實時:不同于傳統的棋類游戲,星際爭霸玩家必須隨著游戲時間的推移不斷地執行動作。
    • 更大的操作空間:必須實時控制數百個不同的單元和建筑物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴充。

    為了進一步探索這些問題,DeepMind與暴雪2017年合作發布了一套名為PySC2的開源工具,在此基礎上,結合工程和算法突破,才有了現在的AlphaStar。



    除了DeepMind以外,其他公司和高校去年也積極備戰:

    • 4月,南京大學的俞揚團隊,研究了《星際2》的分層強化學習方法,在對戰最高等級的無作弊電腦情況下,勝率超過93%。
    • 9月,騰訊AI Lab發布論文稱,他們構建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內置機器人Bot。
    • 11月,加州大學伯克利分校在星際2中使用了一種新型模塊化AI架構,用蟲族對抗電腦難度5級的蟲族時,分別達到 94%(有戰爭迷霧)和 87%(無戰爭迷霧)的勝率。

    下一步



    今天AI搞定了《星際2》,DeepMind顯然不滿足于此,他們的下一步會是什么?

    哈薩比斯在賽后說,雖然星際爭霸“只是”一個非常復雜的游戲,但他對AlphaStar背后的技術更感興趣。其中包含的超長序列的預測,未來可以用在天氣預測和氣候建模中。

    他還透露將在期刊上發表經過同行評審的論文,詳細描述AlphaStar的技術細節。一起期待吧~

    誠摯招聘

    量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。

    量子位 QbitAI · 頭條號簽約作者

    ?'?' ? 追蹤AI技術和產品新動態

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有