然而,也有人對AI進一步發展的影響提出了一些擔憂,擔心AI的崛起會導致人類失去某些技能和競爭力。對此,專家表示,AI技術的應用應該是以人為本,旨在為人類提供更好的生活和服務,并與人類形成合作共贏的關系。
無論如何,騰訊麻將AI的成功在一定程度上展示了中國在人工智能領域的實力和創新能力。未來,人工智能技術將繼續在各個領域發揮重要作用,為社會帶來更多的便利和進步。
(8250895)
月 11 日,騰訊宣布自研棋牌類 AI “絕藝 LuckyJ” 在國際知名麻將平臺“天鳳”上達到十段水平,刷新了 AI 在麻將領域的最好成績。“絕藝 LuckyJ” 展現了在非完美信息博弈游戲中的優秀決策水平,進一步提升了 AI 解決現實世界問題的能力。
日本在線麻將競技平臺“天鳳”創建于 2006 年,擁有體系化的競技規則和專業段位規則,受到職業麻將界的廣泛認可。截至目前,天鳳平臺活躍人數 23.8 萬,而能達到十段的僅 27 人(含 AI),不到萬分之一。
相比其他麻將 AI 和人類玩家,“絕藝 LuckyJ”不僅穩定段位更高,從零開始達到十段所需的對戰局數也明顯更少,僅需要 1321 局。這體現了騰訊 AI Lab 在決策 AI 方向上世界領先的技術實力。
統計意義上看天鳳穩定段位 bootstrap 的分布,絕藝 LuckyJ 顯著強于之前最強的兩個日本麻將 AI(Suphx,NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
騰訊 AI Lab 研究員表示,現實世界中充滿了需要在非完美信息狀態下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。在游戲環境中推進決策 AI 的能力,最終是希望 AI 能從虛擬走向現實,解決真實世界的復雜問題。
過去半個世紀以來,游戲在人工智能技術的演進中發揮了重要的作用。游戲多樣化的情境為 AI 的訓練和學習提供了便利的研究場景,從國際象棋到圍棋,再到德州撲克、王者榮耀等游戲,AI 不斷在游戲場景中拓展能力邊界。
圍棋、象棋都屬于完美信息博弈,參與競技雙方的每次決策,都可以看到全局的信息。AI 能夠通過強大的計算力來枚舉各種可能性,從而找到致勝策略。而麻將無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隱藏信息,是典型的非完美信息博弈。
據介紹,麻將一共有 136 張牌,每一位玩家只能看到很少的牌,包括自己的 13 張手牌和所有人打出來的牌。牌局開始時,另外三位玩家的手牌以及墻牌都是看不到的,面對如此多的隱藏未知信息,麻將玩家的每一個決策都需要兼顧進攻和防守。
此外,在麻將的對戰中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會改變摸牌的順序,這一過程也涉及了大量的決策。
如上圖所示,橫坐標信息集數目表示可觀察狀態的多少,即牌面的信息。縱坐標信息集平均大小表示隱藏信息的多少,即其他所有對手的手牌的可能性。麻將所包含的隱藏信息要遠遠大于德州撲克。
為了更好地解決麻將游戲中存在的大量隱藏信息的難題,提升 AI 的決策能力,騰訊 AI Lab 基于強化學習和遺憾值最小化的自我博弈技術,使得 AI 能從零開始自我學習和提高,并最終收斂到一個最強的混合策略,讓 AI 在實際對戰的過程中擁有更加平衡的策略能力。
同時,考慮到傳統的非完美信息搜索算法在麻將面前很難發揮太大的作用,騰訊 AI Lab 基于樂觀價值估計的思想,提出了一種高效的非完美搜索方法,使得 AI 在有海量隱藏信息的游戲狀態中,仍可以實時調整當前策略,從而更好地應對多變的戰局。
相比人類,“絕藝 LuckyJ“在麻將游戲中,擁有更加平衡的策略,對局勢的計算更精確,其中包括打每張牌的期望收益、未來可能胡哪些番型等等,通過這樣的“策略”訓練,也為 AI 走入更多行業打下了基礎。
天鳳平臺開發公司 C-EGG 的 CEO 角田真吾表示:“這是麻將 AI 的又一次突破,LuckyJ 進一步拓寬了麻將 AI 的能力邊界。令人感到興奮的是,在特上房包括人類玩家在內的對戰 1000 局以上的所有玩家中,LuckJ 的穩定段位排名第一”。
在網上對 LuckyJ 歷史對局有深入研究的天鳳十段玩家、日本麻將戰術研究家 yousei 評價,LuckyJ 給人的印象是在每張牌上看到“攻擊、防守的參數”,總體上,LuckyJ 看起來“完全沒有漏洞”,一方面通過保留安全牌等策略降低事故率。另一方面,即使手牌中同時存在多個和牌方向,LuckyJ 也可以在這些復雜的分支中順利進行下去。
值得一提的是,“絕藝 LuckyJ“在國標麻將中也有亮眼表現,在線下職業選手邀請賽中擊敗六位職業選手,成為首個戰勝國標麻將頂尖職業選手的麻將 AI。
圖注:對戰數據顯示,在近 2000 場對局中,絕藝 LuckyJ 的平均贏番達到 1.76 番,這里番為國標麻將的結算單位,數值越大,說明贏得越多。
曾與絕藝 LuckyJ 對局的棋手們,也對它做出了高度評價。“雀友杯”2014 年世界麻將大師邀請賽冠軍,騰訊麻將錦標賽年度總決賽(2018,2019)冠軍成海華提到,AI 在攻防兩端都表現得都十分出色,充分體現了計算上的優勢,讓他刮目相看。
國標麻將職業選手,標榜麻將運動協會會長楊磊也有相同的感受:“經過數月與騰訊麻將 AI 的對抗測試,通過分析 AI 對局,AI 無論在進攻還是防守都讓我印象深刻。我們通常所謂的妙手、靈光一現,甚至基于經驗和感覺做出的置之死地而后生的選擇,對于 AI 來說可能算是常規操作。”
國標麻將及日本麻將職業選手黃林說,在與 AI 的上千次對戰中,他一直驚嘆于 AI 強大的牌效和精準的讀牌,形容它“在攻防兩端都做到了極致”。
決策與生成是當前人工智能發展的兩大主線,也是研究通用人工智能的必由之路。在模擬真實世界的虛擬游戲中,AI 學會快速分析、決策與行動,就能執行更困難復雜的任務并發揮更大作用。從 2017 年開始,騰訊 AI Lab 自研的絕藝、絕悟兩款決策 AI,借助棋牌、MOBA 等多類游戲場景,探索用 AI 解決現實中的復雜問題。
現實生活中存在大量的隱藏信息和不確定的因素,麻將游戲中復雜的決策過程和帶有隨機性的博弈,比圍棋這樣的完美信息游戲更加接近真實的現實生活。“絕藝 LuckyJ” 在專業領域的突破,體現了騰訊 AI Lab 的深度強化學習智能體不斷進化,正逐漸向解決更復雜更多樣化的問題遷移。對非完美信息游戲的研究,將有助于我們開發出適用于真實生活場景的更加“智能”的 AI 系統。
江晚報·小時新聞記者 張峰
說起麻將,無疑是我國最家喻戶曉,老少咸宜的一項棋牌游戲。從最早的AI在國際象棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力游戲相繼淪陷,在DOTA、星際爭霸等電子游戲中也表現亮眼,但是AI在麻將領域卻一直沒有突破。
近日,微軟發布了一份關于麻將AI“Suphx(意為Super Phoenix,超級鳳凰)”的修訂版預印本文件,對Suphx進行了全面介紹,研究人員介紹說,Suphx是一個專業十段水平的“選手”,超越了99%人類玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家。
麻將是規則復雜的不完全信息博弈
據這份公開資料顯示,Suphx于 2019 年 3 月登陸日本專業的麻將競技平臺Tenhou(天鳳),在短短幾個月內,Suphx在該平臺上與人類選手展開了 5000 余場四人麻將對局,達到了十段,這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智能。據悉,天鳳是世界上最大的麻將社區之一,擁有超過35萬活躍用戶,其中不乏大量的專業麻將選手。天鳳平臺自 2006 年推出以來,四人麻將達到過十段的選手約有 180 位,而現役的十段人類選手也不過十幾位。
此前,天鳳平臺還活躍著另外兩個麻將 AI 系統,分別是東京大學2015年發布的“爆打”,以及Dwango2018年發布的“NAGA25”,但二者的穩定段位均低于 6.5,和Suphx相差甚遠。
麻將被稱為不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌墻中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時,這部分牌的牌才可見。
雖然136張麻將的排列組合的結果和圍棋相比要小得多,但難點在于同一玩家兩次出牌之間,夾雜了其他 3 位玩家的出牌、自己的摸牌,而且還有“吃、碰、杠”都會讓牌局產生動態變化。在這種規則下,玩家每做出一個選擇,接下來的牌局就可能出現10個以上的走向。
另外,麻將游戲的“胡牌”方式非常多。不同的“胡牌”方式下,牌面也有很大不同。相應地,每回合游戲的得分也就不同。甚至會出現在局勢不利的情況下,戰略性地“放炮”讓第四名玩家獲勝,以防止被總分第二名的反超的情況。
因此,想要打造一個高手麻將 AI ,只有強大的算力是不夠的,更需要的還在于,讓AI具有直覺、預測、推理和模糊決策的能力,這也正是建立麻將人工智能模型的難點所在。
Suphx是如何戰勝人類的
那么,Suphx是怎么解決這些問題,從而戰勝人類的呢?
據介紹,在開始階段,研究員們利用天鳳平臺的公開數據,得到一個初始模型,并在模型基礎上,用自我博弈的方式進行強化學習訓練。研究員開發了丟牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型等五大模型,專門訓練“超級鳳凰”的打牌策略。這五大模型都基于深度殘差卷積神經網絡,并一一應對麻將復雜的決策類型。甚至,Suphx還有一個基于規則的贏牌模型,決定在可以贏牌的時候要不要贏牌。
隨后,針對非完美信息博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。在訓練階段,利用不可見的隱藏信息,引導AI模型的訓練方向,讓它的學習路徑更加清晰、貼近完美信息意義下的最優路徑,從而促使 AI 模型深入理解可見信息,從中找到有效的策略。
最后,再針對麻將復雜的牌面表達和計分機制,研究團隊利用全盤預測技術搭建起每局比賽和8局終盤結果之間的橋梁。這個預測器通過精巧的設計,可以理解每局比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進行更加直接而有效的指導,并使得 Suphx 可以學會一些具有大局觀的高級技巧。
天鳳平臺上的的頂級人類玩家在社交媒體上盛贊 Suphx,不少人覺得通過Suphx 的比賽,學到了很多不曾見過的技術。此外,還有很多玩家都說在 Suphx 的對戰中,學到了實用的對戰技巧,因此也紛紛將其稱為“麻將教科書”、“Suphx 老師”。