Pluribus與職業(yè)選手的比賽部分過程
7月11日,美國卡內(nèi)基·梅隆大學(xué)宣布,該校和臉書公司合作開發(fā)的人工智能Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機(jī)器在多人游戲中戰(zhàn)勝人類的一個里程碑。
根據(jù)美國媒體報道,此次人機(jī)對決的測試是在6月份進(jìn)行的,采用的是六人牌局,玩的無限制德州撲克,這也是最流行的一種玩法,
根據(jù)The Verge的報道,在歷經(jīng)12天,經(jīng)過10000手的對局后,Pluribus在兩種模式的比賽中都取得最終勝利,共擊敗了12名人類職業(yè)選手。一種模式是AI+5名人類玩家進(jìn)行比賽;另一種是五個不同AI玩家+1位人類玩家,五名AI玩家互不協(xié)作。
Over 12 days and 10,000 hands, the AI system named Pluribus faced off against 12 pros in two different settings. In one, the AI played alongside five human players; in the other, five versions of the AI played with one human player (the computer programs were unable to collaborate in this scenario).
一位名為Trevor Savage的玩家參加了此次比賽,是一位有15年比賽經(jīng)驗的職業(yè)選手。他在賽后表示,Pluribus是個基本完美和能夠獲勝的玩家,它綜合運用了高投注獲勝玩家們都會采用的戰(zhàn)術(shù)。
而另一位曾在世界撲克系列賽六奪冠軍的選手Chris Ferguson也坦言“Pluribus是個非常難對付的對手,每一手的對局都很難摸清它?!?/p>
Pluribus靠什么取勝?
據(jù)報道,Pluribus在比賽中非常擅長迷惑對手。此外,它嚴(yán)密的連貫性以及在小注局中獲利的方法也受到了對局專業(yè)玩家的贊賞。
例如常規(guī)打法是在牌最好的時候押注,但這很快會被對手識破,因此它會“耍點心眼”,不按常理出牌。分析顯示,它會做出一些多數(shù)人類玩家都認(rèn)為不好的決策,這在客觀上也迷惑了對手。
Pluribus聯(lián)合開發(fā)者、臉譜AI研究人員Noam Brown說我們通常認(rèn)為虛張聲勢是人類特有的行為,是一種需要依靠撒謊和欺騙的策略。但是這種藝術(shù)依然可以被歸結(jié)為一些算法最優(yōu)策略。
他說:“人工智能并不把虛張聲勢看作是一種欺騙行為,它只專注在特定形式下做出能讓自己贏得最多的決定。我所展示的是AI不僅可以采取虛張聲勢、故弄玄虛的策略,而且比人類做得更好?!?/p>
"The AI doesn't see bluffing as deceptive. It just sees the decision that will make it the most money in that particular situation,” he says. “What we show is that an AI can bluff, and it can bluff better than any human."
“現(xiàn)在可以肯定地說,我們已經(jīng)處于一個超人類的水平,這是一個不會改變的事實?!?/p>
"It's safe to saywe're at asuperhumanlevel and that's not going to change."
玩德州撲克與圍棋有什么區(qū)別?
CNN在報道中解釋道,讓AI獨孤求敗的國際象棋和圍棋是一種典型的兩人對局比賽,是一種基于“完全信息”的比賽,因為比賽雙方獲得的信息都是一樣的,且對于雙方都是可見的。
但是在撲克游戲里,你不可能知曉對手掌握的所有信息,所以這更難去預(yù)測對手的下一步行動,而這一難度會隨著玩家的增多而提高,這些因素導(dǎo)致德州撲克對電腦而言是個要困難得多的比賽。
它是如何運算的?
Pluribus使用一種類似DeepMind公司人工智能圍棋玩家的的強(qiáng)化學(xué)習(xí)形式,從零開始自學(xué)。它從隨機(jī)地玩撲克開始,計算出哪個動作贏得更多而改進(jìn)。每手牌結(jié)束后,它都會回顧自己的玩法,并檢查如果采取不同的選項,看它是否能賺到更多的錢。如果替代方案能帶來更好的結(jié)果,那么未來更有可能選擇這一方案。
通過與自己對弈數(shù)萬億張牌,Pluribus創(chuàng)造了一種基本策略,可以在比賽中使用。在每個決策點,它都會將游戲的狀態(tài)與自己的藍(lán)圖進(jìn)行比較,并提前搜索一些步驟,然后決定是否可以改進(jìn)它。由于它自學(xué)了在沒有人類輸入的情況下玩游戲,人工智能獲得一些人類玩家通常不會使用的撲克策略。
根據(jù)The Verge的報道,為了在六人牌局中處理更加復(fù)雜的形勢,研發(fā)人員想出另一個有效的方法讓AI在對局中能夠預(yù)測牌局,并以此來決定下一步該怎么做,這是一種搜索功能機(jī)制。
這種機(jī)制不讓AI去預(yù)測對手從下一步直到比賽結(jié)束后的所有可能,如果這么做的話,幾步之后算法就會變得極其復(fù)雜。它采取了一種更加精減的方式,僅僅計算預(yù)測接下來兩三步的牌局。因為在德州撲克中短期的洞察力更加重要。
值得一提的是,通過云服務(wù)器,研究人員前期訓(xùn)練這個AI系統(tǒng)的成本只有150美元,這讓它與動輒數(shù)十萬美元的使用最先進(jìn)技術(shù)的系統(tǒng)相比,更加經(jīng)濟(jì)。
有什么現(xiàn)實意義
如何讓AI在復(fù)雜環(huán)境中處理不完全信息?聯(lián)合開發(fā)者Brown認(rèn)為,Pluribus為這一問題提供了一個基準(zhǔn),無論在游戲還是現(xiàn)實的環(huán)境中。
研究人員指出,與國際象棋和圍棋相比,德州撲克的挑戰(zhàn)更大。德州撲克比賽中每方都不知道對手的牌,對手還可能在押注時虛張聲勢,因此決策只能基于不完全信息,這與真實世界中的問題更接近。
在《科學(xué)》雜志的一篇相關(guān)論文里,Pluribus背后的科學(xué)家們表示人這次勝利是人工智能研究史上一個重要的里程碑。雖然機(jī)器學(xué)習(xí)在國際象棋、圍棋以及電子游戲(例如星際爭霸2,Dota)領(lǐng)域,已經(jīng)達(dá)到超人類水平,但是六人局的無限制德州撲克,從某種程度而言是更高的難度基準(zhǔn)。
Brown還認(rèn)為,Pluribus背后的技術(shù)最終將會被用于一些涉及多人和隱藏信息的應(yīng)用中,想想從詐騙偵測到自動駕駛。
密歇根大學(xué)教授Michael Wellman也認(rèn)為Pluribus的這次勝利是件大事。
他說“這是一個令人印象深刻的技術(shù)成就”,Pluribus經(jīng)過AI的加強(qiáng)后,有可能應(yīng)用到談判、網(wǎng)絡(luò)安全和軍事戰(zhàn)略中。
人工智能技術(shù)在快速發(fā)展,你認(rèn)為人類還有哪些領(lǐng)域有可能被人工智能擊敗,又有哪些領(lǐng)域是人工智能永遠(yuǎn)替代不了的?歡迎留言討論。
編輯:高啟輝
中國日報(ID:chinadailywx)綜合自The Verge,CNN,騰訊科技、新華網(wǎng)
聲明:轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。
頻來源:燃新聞
近日,有網(wǎng)友爆料,在大連瓦房店市公證處,有工作人員在工作時間打紙牌游戲,無視等待辦事的市民。對此,有關(guān)工作人員表示,現(xiàn)已將此事上報上級機(jī)關(guān)等待處理。目前,事件還在調(diào)查當(dāng)中。
據(jù)悉,這位網(wǎng)友曾兩次前往該公證處辦理業(yè)務(wù),第一次被工作人員告知材料不齊全,需要補(bǔ)齊資料,次日下午1點再前往辦理。但當(dāng)網(wǎng)友第二天下午1點再次來到公證處,卻發(fā)現(xiàn)工作人員在上班時間因忙于玩游戲而對其置之不理。
當(dāng)該位網(wǎng)友質(zhì)疑為何上班時間還不辦公時,這位工作人員竟然回答道:“我一點鐘玩完游戲就是一點上班,一點半玩完游戲就是一點半上班!”嗆得這位網(wǎng)友一時說不出話來。
從網(wǎng)友提供的視頻可以看出,當(dāng)時已經(jīng)是下午1點10分,而這位工作人員卻依舊在電腦上玩撲克游戲。且當(dāng)時,已有多名市民在現(xiàn)場等待辦公。相關(guān)工作人員也已經(jīng)證實,公證處正常下午工作時間是從1點開始。
這一幕被發(fā)布到網(wǎng)上后,引起了網(wǎng)友熱議。有網(wǎng)友稱瓦房店市公證處此前就發(fā)生過類似問題,自己去年去該處辦事時,明明是5點下班,4點半不到時工作人員就都要下班了,自己只好第二天再去一次!
者 | 彭新
編輯 |
Windows自帶的小游戲“紙牌”(Solitaire,現(xiàn)在叫《微軟紙牌》),可以說是全球最流行的電腦游戲之一。今天,這款經(jīng)典游戲已經(jīng)30歲了,而它的熱度仍未消散。
根據(jù)微軟的數(shù)據(jù),每一個月都有來自超過200個國家和地區(qū)的共計超過3500萬玩家打開《微軟紙牌》,全球各地每天累計完成的局?jǐn)?shù)超過了1億局。
從1990年作為首個Windows附件游戲發(fā)布在Windows 3.0后,一直到2009年的Windows 7,它都是系統(tǒng)的自帶游戲,成為無數(shù)“前浪”在計算機(jī)課上和辦公室摸魚的回憶。當(dāng)然,這些玩家們也一定不會對“空當(dāng)接龍”、“紅心大戰(zhàn)”這些詞匯感到陌生。
某種程度上,《微軟紙牌》已經(jīng)是世界上玩得最多的游戲之一,它預(yù)裝在幾十年來出貨的數(shù)億臺Windows電腦上,讓無數(shù)人感受到紙牌游戲的樂趣。但隨著2012年Windows 8的發(fā)布, 《微軟紙牌》不再是系統(tǒng)預(yù)裝軟件,隨后又面對iOS和安卓系統(tǒng)又推出了移動版,面向了新一代的游戲玩家。
即使現(xiàn)在來看,除了玩法以外,《微軟紙牌》中“空當(dāng)接龍”最后過關(guān)的畫面也是賞心悅目,宛如瀑布一般的撲克牌下落畫面有一種難以言喻的優(yōu)雅美感,成為人們游戲時追逐的目標(biāo)。
少為人知的是,《微軟紙牌》最早是微軟實習(xí)生開發(fā)的,目的是訓(xùn)練用戶使用鼠標(biāo)的技巧。根據(jù)CNN報道,他們找到了當(dāng)年給微軟開發(fā)紙牌游戲的程序員韋斯·切利(Wes Cherry),而后者介紹,他當(dāng)年開發(fā)紙牌游戲,初衷是想讓W(xué)indows不那么無聊。但微軟把紙牌游戲放進(jìn)Windows,目的是利用游戲訓(xùn)練用戶使用鼠標(biāo)的技巧。
1990年代還尚處于DOS系統(tǒng)向Windows的圖形界面切換的過渡期,此前用戶都是敲鍵盤用命令行控制電腦,而Windows當(dāng)年的一大賣點,就是依靠鼠標(biāo)直觀便捷地操作。
那時候?qū)οM者來說,鼠標(biāo)是個從未使用過的全新設(shè)計,當(dāng)時的微軟為了要讓PC使用者快速上手,就以紙牌接龍(Klondike)為基礎(chǔ),設(shè)計了我們現(xiàn)在所熟知的《微軟紙牌》,鼠標(biāo)光標(biāo)的“拖、拉、拽”操作等操作方式就是游戲的核心,而“空當(dāng)接龍”當(dāng)時起就從未離開微軟的系統(tǒng),一直輾轉(zhuǎn)流傳至今。
有關(guān)《微軟紙牌》的開發(fā)還有一則趣事:最初韋斯·切利將“老板模式”引入到《微軟紙牌》中,使用了一個假冒的文檔界面來欺騙老板和同事,掩蓋玩家的摸魚行為,功能類似電腦娛樂軟件中常有的“老板鍵”。不過,微軟讓韋斯·切利在發(fā)布之前從游戲中刪除了老板模式。
不得不說,如果“老板模式”存在的話,它至少可以在14年前挽救一名美國男子的工作,他因被發(fā)現(xiàn)在上班時間玩《微軟紙牌》而被前紐約市長、彭博社老板邁克爾·布隆伯格(Michael Bloomberg)開除,一時間遭到熱議。
由于《微軟紙牌》廣泛的受歡迎程度,在去年5月,這款經(jīng)典游戲被正式入選“世界電子游戲名人堂”(World Video Game Hall of Fame),同期入選的三款游戲還有《真人快打》、《超級馬力歐賽車》和《巨洞冒險》。從而《微軟紙牌》和《古墓麗影》、《俠盜獵車手》、《俄羅斯方塊》等一眾經(jīng)典游戲并列,根據(jù)介紹,在名人堂游戲選拔時,評審委員要考慮品牌地位、是否廣泛為人所知、是否隨時間推移卻仍受歡迎,甚至是游戲?qū)ι鐣捌渌娮佑螒虻挠绊憽?/p>