《麻省理工科技評(píng)論》中英文版APP現(xiàn)已上線,年度訂閱用戶每周直播科技英語(yǔ)講堂,還有科技英語(yǔ)學(xué)習(xí)社區(qū)哦~)
自從DeepMind的AlphaGo在圍棋賽場(chǎng)上一戰(zhàn)成名之后,人類對(duì)AI的恐懼就突然出現(xiàn)于世。但自那以后,這家Google旗下的人工智能公司并沒(méi)有停止前進(jìn)的腳步,又推出了實(shí)力更強(qiáng)的AlphaGo Zero,而他們的遠(yuǎn)期目標(biāo)是打造出通用的人工智能機(jī)器。雖然這一目標(biāo)尚顯遙遠(yuǎn),但根據(jù)本周DeepMind科學(xué)家發(fā)表的最新的論文來(lái)看,他們已經(jīng)走在了正確的道路上。
※ 論文地址:https://arxiv.org/pdf/1712.01815.pdf
在這篇論文中,DeepMind詳細(xì)描述了AlphaGo Zero的“繼承者”—— AlphaZero(注:之前刷屏的是 AlphaGo Zero,它做到的是不依賴任何人類知識(shí),3天超越李世乭版本)。AlphaZero 首先經(jīng)過(guò) 8 個(gè)小時(shí)的對(duì)世界頂級(jí)圍棋棋譜的學(xué)習(xí),就成功擊敗了與李世石對(duì)戰(zhàn)的 AlphaGo v18;又經(jīng)過(guò)了 4 個(gè)小時(shí)的訓(xùn)練,它又擊敗了世界頂級(jí)的國(guó)際象棋程序——Stockfish;緊接著,又是2個(gè)小時(shí)的訓(xùn)練之后,世界上最強(qiáng)的日本將棋程序Elmo又?jǐn)≡诹怂氖窒隆?/p>
看出來(lái)了嗎?AlphaZero 或許已經(jīng)有了些許邁向棋類通用 AI 的跡象!和AlphaGo Zero相比,AlphaZero的主要變化在于:
1、AlphaGo Zero優(yōu)化時(shí)假定兩種結(jié)果:輸、贏。AlphaZero則有三種:輸、贏、 僵持 。圍棋每一步都可以有一個(gè)輸贏,即誰(shuí)的數(shù)量多,但是其他的很多棋在中間是沒(méi)有輸贏的,所以這樣的設(shè)計(jì)使得AlphaZero從圍棋跨向棋類領(lǐng)域。
2、AlphaZero能適應(yīng)更為復(fù)雜的規(guī)則。圍棋規(guī)則相對(duì)簡(jiǎn)單,規(guī)則具有旋轉(zhuǎn)和反射不變形和對(duì)稱性,所以AlphaZero的算法適應(yīng)了將棋的規(guī)則意味著對(duì)于這樣規(guī)則多變復(fù)雜的棋類的有效性。
3、在所有棋類中使用相同的超參數(shù),這是泛化的表現(xiàn),期間不需要針對(duì)特定棋做改變。
4、AlphaGo Zero的最優(yōu)策略由之前所有迭代的最佳選手生成。在每一輪的迭代中,新玩家都將和最佳選手比較。如果新玩家以55%的差距獲勝,那么他就會(huì)取代最選選手。而 AlphaZero 只保留一個(gè)網(wǎng)絡(luò),并持續(xù)更新,而不必等待一個(gè)迭代結(jié)束,self-game的結(jié)果由這個(gè)網(wǎng)絡(luò)的最終參數(shù)生成。這就省去了ZeroGo中每一步的評(píng)估和對(duì)最佳選手的選擇。
從中我們也可以發(fā)現(xiàn),AlphaZero 并不是針對(duì)某一種棋類被專門開發(fā)出來(lái)的,在不同的棋類游戲中,它只是被傳授一些基本的規(guī)則,但類似于更高級(jí)別的戰(zhàn)略策略則完全沒(méi)有,只憑借人工智能自己反復(fù)的從訓(xùn)練和實(shí)戰(zhàn)中獲得,而這種訓(xùn)練方法就是我們熟知的“強(qiáng)化學(xué)習(xí)”(reinforcement learning)。
圖丨強(qiáng)化學(xué)習(xí)入選《麻省理工科技評(píng)論》10大突破技術(shù)
使用強(qiáng)化學(xué)習(xí)這項(xiàng)技術(shù)并不是新鮮事,今年10月DeepMind的工程師過(guò)去也是使用相同的方法來(lái)打造AlphaGo Zero,不過(guò),值得注意的是,新的AlphaZero是同一套軟件下“更通用的版本”,代表可以應(yīng)用于更廣泛的任務(wù),而且不需要預(yù)先準(zhǔn)備好。在不到24小時(shí),同一個(gè)電腦程式就可以教會(huì)自己玩三種復(fù)雜的棋盤游戲,而且是超越人類的水平,這無(wú)疑是AI世界的新創(chuàng)舉。
在這次研究中,研究團(tuán)隊(duì)使用了5000個(gè)一代TPU來(lái)生成自我對(duì)弈棋譜,用另外64個(gè)二代TPU來(lái)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。而在此前AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用的則是GPU。DeepMind 的目標(biāo)一直是打造通用的AI機(jī)器,這項(xiàng)任務(wù)代表DeepMind又往目標(biāo)邁進(jìn)了一步,但是挑戰(zhàn)仍在前方,DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero時(shí),他就希望未來(lái)的版本能夠幫助解決科學(xué)問(wèn)題,像是設(shè)計(jì)新藥、發(fā)現(xiàn)新材料等。但是這些問(wèn)題與玩棋盤游戲在根本上有很大的差異,還有許多問(wèn)題得被解決才能找出正確的算法。
大概總結(jié)一下人類開發(fā)棋類AI 的思路,那就是:精心設(shè)計(jì)特征,調(diào)整參數(shù),依賴強(qiáng)大的搜索算法——學(xué)習(xí)人類的全部經(jīng)驗(yàn)——不學(xué)習(xí)人類的經(jīng)驗(yàn),自己學(xué)習(xí)——自己在一個(gè)廣泛的領(lǐng)域?qū)W習(xí)。不過(guò),現(xiàn)在可以肯定的是,人工智能不再只是會(huì)下棋而已。至于對(duì)普通人類來(lái)說(shuō),我們只能說(shuō),DeepMind 論文可以不用發(fā)太快,上次的還沒(méi)消化完!
以下為論文摘要部分,僅供各位參考:
在計(jì)算機(jī)科學(xué)剛誕生的時(shí)候,巴貝奇、圖靈、香農(nóng)和馮諾依曼這些先驅(qū)們就開始從硬件、算法和理論的角度研究國(guó)際象棋。從那時(shí)起,國(guó)際象棋就成了人工智能領(lǐng)域的重大挑戰(zhàn)。雖然最終人們讓程序在國(guó)際象棋棋盤上戰(zhàn)勝了人類,但是相關(guān)的算法并不通用:判斷每一步行棋優(yōu)劣的評(píng)分算法由國(guó)際象棋專家手動(dòng)調(diào)整定制,因此很難擴(kuò)展到其他應(yīng)用場(chǎng)景中。
相對(duì)國(guó)際象棋來(lái)說(shuō),源自日本的將棋遠(yuǎn)更復(fù)雜。首先,它的棋盤更大;其次,棋子被吃后會(huì)換邊,并出現(xiàn)在棋盤的任何地方。直到最近,代表將棋程序最高水平的Elmo才打敗了人類冠軍棋手。將棋程序和之前的國(guó)際象棋類似,需要根據(jù)自身特點(diǎn)高度優(yōu)化的alpha-beta搜索引擎,并根據(jù)將棋自身的特性進(jìn)行很多修改。AlphaGo的神經(jīng)網(wǎng)絡(luò)架構(gòu)更適合圍棋。因?yàn)閲宓囊?guī)則變化較少。而象棋和將棋的規(guī)則變化較多,很多規(guī)則還要基于棋盤上的具體位置。例如象棋中的“兵”在第一步的時(shí)候可以前進(jìn)一格或兩格,并在到達(dá)對(duì)方底線后升棋(即兵可以升級(jí)為車、馬、象或后)。
相對(duì)于用來(lái)下圍棋的AlphaGo Zero,AlphaZero的算法通用性更強(qiáng)。它去掉了一些需要手工調(diào)整的專業(yè)棋類知識(shí),并用可以從頭進(jìn)行增強(qiáng)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)取而代之。
活子圍棋規(guī)則
第九章、返樸歸根,大道至簡(jiǎn)
時(shí)間在流淌,人類在進(jìn)步。圍棋規(guī)則也要與時(shí)俱進(jìn)。21世紀(jì)的圍棋規(guī)則應(yīng)該是怎樣的?
讓我們先看一看圍棋規(guī)則演變的歷史。
從堯舜時(shí)期到民國(guó)初年,約四千年間,圍棋的勝負(fù)計(jì)算法多次演變不斷簡(jiǎn)化,是一個(gè)大道從簡(jiǎn)的過(guò)程。
最初的原始的方法是,人們還不懂得盤面無(wú)爭(zhēng)概念時(shí),一人一手走到底,直至盤面呈現(xiàn)“兩溢”狀態(tài)而終局。在棋盤兩溢時(shí)數(shù)活子計(jì)算勝負(fù),活子較多的一方獲勝。
(見原始計(jì)算法)
兩溢之棋:黑白兩棋皆填滿而欲溢,又因保有基本眼位而不溢。
兩溢之棋就是理想的最終局面。
經(jīng)過(guò)一段時(shí)間的實(shí)踐,人們建立了“無(wú)爭(zhēng)局面”的概念,就不必一人一手下到底了,而是在無(wú)棋可爭(zhēng)時(shí)停止對(duì)局,做棋時(shí)自由隨意地將棋盤填成兩溢狀態(tài)。用“填”取代“下”,就簡(jiǎn)化了勝負(fù)的計(jì)算。
(見填滿數(shù)子法)
又經(jīng)過(guò)一段時(shí)間的實(shí)踐,人們有了“子路皆子”的認(rèn)知,于是在清除死子后直接將子與路合并計(jì)算,不必在做棋時(shí)填子了(不必將路點(diǎn)轉(zhuǎn)換為活子了)。
(見子路合計(jì)法)
北周(公元557-581年),一位先賢在白羊皮上寫下一部《碁經(jīng)》,因被發(fā)現(xiàn)于敦煌,被稱為《敦煌棋經(jīng)》。其碁制篇第六記載了先唐時(shí)期(可能在漢朝前后)的“停道之碁”,原文是“碁有停道及兩溢者;子多為勝。”
停道之棋即等路之棋。做棋時(shí)令路子數(shù)量相等,比較兩方局子的數(shù)量,局子多的一方獲勝。
(見等路比子法)
到了唐代,圍棋先賢又創(chuàng)造出等子之棋。做棋時(shí)令局子數(shù)量相等,比較兩方路子的數(shù)量,路子較多的一方獲勝。(路是路子的代表)
(見等子比路法)
等路比子法與等子比路法,都不必?cái)?shù)出各方的全部活子數(shù)量,同子路合計(jì)法相比,減少了計(jì)算量,進(jìn)一步簡(jiǎn)化了勝負(fù)的計(jì)算。
明代和清代的還棋頭數(shù)子法即等虛比子法,數(shù)棋塊還棋頭,設(shè)立歸本數(shù),可只數(shù)一方,使勝負(fù)計(jì)算更為簡(jiǎn)便。
(見等虛比子法)
等子比路的唐宋數(shù)路法和等虛比子的明凊還棋頭數(shù)子法,都是優(yōu)秀簡(jiǎn)單方便的勝負(fù)計(jì)算法。后者取代前者并非在優(yōu)秀簡(jiǎn)單方便諸方面勝出,而是因?yàn)榍罢呤艿揭?guī)則之外人的因素的傷害。
缺乏誠(chéng)信的對(duì)局者,有時(shí)會(huì)偷偷地取走一些己方被提出盤外的俘子,這樣一來(lái),做棋回填時(shí)就可少填一些子而多得幾路。這種行為無(wú)異于偷竊,高雅的圍棋藝術(shù)怎能對(duì)其容忍?
明清還棋頭數(shù)子法,勿須保留俘子,也不回填俘子與死子,有效地杜絕了在數(shù)路法規(guī)則下無(wú)誠(chéng)信者偷取勝利的惡劣行徑。這大概就是明清還棋頭數(shù)子法取代唐宋數(shù)路法的重要原因。
以上是圍棋勝負(fù)計(jì)算法大道從簡(jiǎn)的演變過(guò)程。
現(xiàn)在,讓我們來(lái)見證圍棋勝負(fù)計(jì)算法之返樸歸真。
20世紀(jì)下半葉,人類發(fā)明了電子計(jì)算機(jī)(包括個(gè)人使用的電腦),21世紀(jì)初,人工智能AI戰(zhàn)勝了人類的世界冠軍。在這樣的科學(xué)大背景下,筆者思考著圍棋規(guī)則該怎樣與時(shí)俱進(jìn)?曾寫下《計(jì)活子圍棋規(guī)則編程指南》等文章。
螺旋式上升是一種進(jìn)步。
從“兩溢之棋,活子多勝”,經(jīng)“子路合計(jì),活子多勝”、“等路比子,局子多勝”、“等子比路,路多為贏”、“等虛比子(還棋頭),復(fù)子多勝”,又返回到“兩溢之棋,活子多勝”,這正是螺旋式上升式的進(jìn)步!
今天的AI(人工智能)下圍棋,將無(wú)爭(zhēng)局面下成或填成兩溢局面,三秒內(nèi)可以搞定。時(shí)間在流淌,人類在進(jìn)步。圍棋規(guī)則也要與時(shí)俱進(jìn)。21世紀(jì)的圍棋規(guī)則應(yīng)該是怎樣的?
“兩溢之棋,活子多勝”這原始樸素的勝負(fù)計(jì)算法,憑借著人類科技的進(jìn)步,像是長(zhǎng)出了神奇的翅膀,比任何其它勝負(fù)計(jì)算法都飛得更高。
39、返樸歸根,大道至簡(jiǎn)
最優(yōu)最簡(jiǎn)的勝負(fù)計(jì)算法是將棋下成或填成兩溢局面,在兩溢局面上數(shù)活子計(jì)算勝負(fù)。
(1)將棋下成兩溢局面
盤面無(wú)爭(zhēng)后,對(duì)局者雙方停止對(duì)局。接下來(lái)由對(duì)局者發(fā)出指示,令電腦軟件將棋下成理想的最終局面。電腦數(shù)秒內(nèi)完成任務(wù),經(jīng)雙方確認(rèn)后,令電腦數(shù)出各方的活子數(shù)量并判定勝負(fù)。
(2)將棋填成兩溢局面
盤面無(wú)爭(zhēng)后,對(duì)局者雙方停止對(duì)局。接下來(lái)由對(duì)局者清除死子,確定各方活棋眼位的位置。此后,令電腦軟件在各方的路點(diǎn)上填入各方的棋子,將棋做成理想的最終局面。電腦數(shù)秒內(nèi)完成任務(wù),經(jīng)雙方確認(rèn)后,令電腦數(shù)出各方的活子數(shù)量并判定勝負(fù)。
這就是人們值得擁有的21世紀(jì)的圍棋規(guī)則。
本文及《計(jì)活子圍棋規(guī)則編程指南》等文章是筆者的原創(chuàng)。
-
作者:找借口安靜(圍棋寶典特約作者)]
這篇翻譯報(bào)道的上集:【對(duì)話·人工智能(上)】讓圍棋界和將棋屆震撼的軟件,是否已經(jīng)達(dá)到了“入神的境界”?可以在我公眾號(hào)的歷史信息內(nèi)找到。
前言:不管是圍棋軟件還是將棋軟件,它們都經(jīng)常會(huì)下出一些人類察覺不到的妙手,并且改善了大局觀的判斷。在深度學(xué)習(xí)的最新技術(shù)與快速運(yùn)行的計(jì)算機(jī)相輔相成之后,棋力已經(jīng)超越了人類棋手。軟件的研究至今也有半個(gè)世紀(jì)的歷史。日本人工智能研究第一人,擔(dān)任公立函館未來(lái)大學(xué)副理事長(zhǎng)松原仁(下記:松原),以及前世界業(yè)余圍棋錦標(biāo)賽日本代表,并且作為本報(bào)擔(dān)任觀戰(zhàn)記者的金澤盛榮(下記:金澤),這次對(duì)話的第二集,將講述軟件和職業(yè)棋手是否迎來(lái)了“共存的時(shí)代”。
松原仁 圖片摘自每日新聞
關(guān)于世界最強(qiáng)棋手和軟件的交鋒
金澤:圍棋界和將棋界在電腦軟件的看法上面完全不一樣。將棋界好像對(duì)軟件或多或少有一點(diǎn)回避。
松原:(將棋界的)是禁止令嗎?現(xiàn)在來(lái)看這個(gè)對(duì)策怎么樣呢?
譯者注:關(guān)于禁止令。2005年,當(dāng)時(shí)還是五段的橋本崇載和軟件“TACOS”對(duì)局,雖然沒(méi)有贏下比賽不過(guò)對(duì)當(dāng)時(shí)的日本將棋聯(lián)盟造成了巨大沖擊,之后就發(fā)布了“禁止職業(yè)棋手在沒(méi)有經(jīng)過(guò)允許的情況下和軟件進(jìn)行對(duì)局”。不過(guò)在2007年“Bonanza”與渡邊明龍王的對(duì)局,2010年“あから2010”戰(zhàn)勝了清水市代女流王將。這兩個(gè)特例是之后電王戰(zhàn)開始的原因。
金澤:而圍棋界,去年AlphaGo和李世石九段進(jìn)行了對(duì)局,之后井山文裕本因坊也參加了人機(jī)賽。
松原:之后柯潔九段是否和AlphaGo進(jìn)行對(duì)局一度也成為了焦點(diǎn)(譯者注:這篇訪談是在電圣戰(zhàn)后進(jìn)行的,還不知道5月23-27日的人機(jī)大戰(zhàn)第二季)。但是相較于比較封閉的日本將棋,圍棋還是比較國(guó)際化的,即便日本棋手不行,中國(guó),韓國(guó),甚至歐洲棋手都可以去和軟件進(jìn)行對(duì)局。日本棋院在經(jīng)營(yíng)過(guò)程中就引進(jìn)一些國(guó)外的棋手,以此吸收外部的空氣。在這方面日本將棋聯(lián)盟可以說(shuō)還差了太遠(yuǎn)了。在組織上就有這樣的差別,兩種棋類的國(guó)際化程度也有很大差別,對(duì)此你有什么想法呢?
金澤:感覺對(duì)將棋界的危機(jī)感要大一點(diǎn)。
松原:感覺將棋領(lǐng)域軟件距離神的差距已經(jīng)很接近了。圍棋界突然出現(xiàn)了一個(gè)AlphaGo之后,棋手依舊沒(méi)覺得有危機(jī)感。而將棋這邊則有很強(qiáng)烈的緊迫感,從2010年清水市代女流六段輸給了“あから2010”,再到2012年電王戰(zhàn)米長(zhǎng)邦雄永世棋圣輸給了“ボンクラーズ”,危機(jī)感油然而生。
金澤:圍棋界在之前斷言軟件的實(shí)力提升還需要很長(zhǎng)一段時(shí)間,但是自從深度學(xué)習(xí)這項(xiàng)技術(shù)引入之后,軟件的實(shí)力以加速度的方式進(jìn)步,讓人有些難以置信。現(xiàn)在的情況就是人類棋手反而被軟件超越了。
電王戰(zhàn) 將棋軟件“Ponanza”擊敗佐藤天彥名人
松原:佐藤天彥名人即將和將棋軟件進(jìn)行兩番棋的交手。
金澤:佐藤是現(xiàn)役名人所以備受關(guān)注。
松原:我覺得“Ponanza”會(huì)贏下比賽(譯者注,4月1日的第一局佐藤天彥失利,第二局在5月20日進(jìn)行,雙方各5個(gè)小時(shí)保留時(shí)間)。雖然在2015年另一款將棋軟件“Awake”和阿久津主稅八段的比賽中,阿久津主稅八段下出了一手引誘電腦出BUG的招法,不過(guò)“Ponanza”不大會(huì)有這個(gè)情況。“Ponanza”在將棋軟件領(lǐng)域獨(dú)孤求敗5年多了,這樣的BUG應(yīng)該都解決了。就看佐藤天彥名人用什么戰(zhàn)術(shù)了,會(huì)用自己最擅長(zhǎng)的橫取步布局(譯者注,將棋的一種布局),或者找到一個(gè)能讓軟件陷入苦戰(zhàn)的下法。雖然我認(rèn)為Ponanza會(huì)完勝,不過(guò)很多人應(yīng)該會(huì)關(guān)注這場(chǎng)比賽,畢竟佐藤天彥是現(xiàn)役名人。
金澤:軟件最希望交戰(zhàn)的對(duì)手里面,佐藤天彥名人是僅次于羽生善治三冠的吧。
松原:可能日本將棋聯(lián)盟這邊還沒(méi)有認(rèn)同這個(gè)觀點(diǎn),我在2015年就說(shuō)將棋軟件的水平已經(jīng)到了非常強(qiáng)的水平,所以就終止了研究。這次佐藤天彥名人說(shuō),輸?shù)艏幢爿數(shù)粢矝](méi)辦法,畢竟軟件的水平又變強(qiáng)了。但是沒(méi)想到圍棋界在幾乎同一個(gè)時(shí)候可能會(huì)認(rèn)可這個(gè)觀點(diǎn)。
金澤:這么說(shuō)你就不繼續(xù)研究圍棋軟件了嗎?
松原:這倒沒(méi)有,2015年的宣言,是因?yàn)閷⑵褰缱顝?qiáng)的羽生善治三冠并沒(méi)有成為我們的交戰(zhàn)對(duì)手,所以就宣布了這個(gè)消息。將棋界在那段時(shí)間確實(shí)發(fā)生了很多事情,比如當(dāng)時(shí)還是日本將棋聯(lián)盟會(huì)長(zhǎng)的米長(zhǎng)邦雄去世,以及那段時(shí)間棋手在軟件的評(píng)價(jià)也沒(méi)這么好。如果米長(zhǎng)邦雄還活著的話,他可能會(huì)理解那種氣氛。比如職業(yè)棋手輸給軟件,并不是為了輸贏而是為了整個(gè)將棋界的話,羽生善治就有可能跟我們進(jìn)行交手了。說(shuō)實(shí)話我們錯(cuò)過(guò)了一個(gè)很好的時(shí)機(jī)。
金澤:現(xiàn)在羽生善治還有可能和軟件交手的機(jī)會(huì)吧。
松原:羽生善治確實(shí)是代表了將棋界的一個(gè)象征性人物。
金澤:而圍棋這一邊,井山文裕本因坊先被軟件擊敗了。
松原:或許羽生善治自己也很想和軟件交手,不過(guò)日本將棋聯(lián)盟可能考慮到了贊助商的問(wèn)題就沒(méi)進(jìn)行了。
金澤:而圍棋的話,在詢問(wèn)有無(wú)意向贊助人機(jī)賽之前,軟件的水平就可以和職業(yè)棋手進(jìn)行公開對(duì)局。然后贊助商就紛紛出來(lái)贊助了。
松原:因?yàn)閲暹€是有國(guó)際化程度在里面,即便日本棋手不出來(lái)比賽,從中國(guó),韓國(guó)那里也能有很多棋手出來(lái)進(jìn)行對(duì)戰(zhàn)。
金澤:不過(guò)可以作為當(dāng)今日本圍棋的代表人物出戰(zhàn)人機(jī)戰(zhàn)的話,只有井山可以出戰(zhàn)了。
松原:是的,不然只有中韓兩國(guó)棋手可以和電腦進(jìn)行交手,而日本這邊就沒(méi)有可以出戰(zhàn)的棋手了。
有一定能力的學(xué)生 就可以制造一個(gè)實(shí)力很強(qiáng)的軟件
金澤:我們換一個(gè)話題,軟件最大的作用是不是深度學(xué)習(xí)呢?
松原:讓軟件自己踏踏實(shí)實(shí)的進(jìn)行強(qiáng)化學(xué)習(xí),軟件自己進(jìn)行左右互搏,以此提高水平很重要。其實(shí)將棋軟件也在做這個(gè)事情。深度學(xué)習(xí)可以讓軟件的實(shí)力達(dá)到一定的高度,再對(duì)它進(jìn)行強(qiáng)化學(xué)習(xí)的話,就可以變得更強(qiáng)。圍棋的話,深度學(xué)習(xí)只能達(dá)到最基本的水平,而之后戰(zhàn)勝歐洲棋手(譯者注:其實(shí)就是樊麾),戰(zhàn)勝李世石九段,再然后“Master”與頂尖棋手達(dá)成60連勝,這都是強(qiáng)化學(xué)習(xí)的成果而不是深度學(xué)習(xí)。
金澤:左右互搏是不是起到了效果。
松原:左右互搏的作用確實(shí)是最大的。
金澤:但是沒(méi)有深度學(xué)習(xí)的話…
松原:那也達(dá)不到這個(gè)高度了。
金澤:谷歌公司旗下的Deep Mind公司公開的一篇論文,如果專業(yè)開發(fā)軟件的人員來(lái)看的話,能不能明白其中的原理呢?
松原:讀這篇論文的人可能會(huì)明白,人工智能不僅需要深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),還需要一個(gè)可以計(jì)算勝率最高的手段的蒙特卡洛算法。這三個(gè)結(jié)合在一起就做出了AlphaGo。雖然在細(xì)節(jié)上面論文上沒(méi)有提及,不過(guò)其他人經(jīng)過(guò)反復(fù)實(shí)驗(yàn)也能達(dá)到一定的高度。
金澤:論文上有具體說(shuō)明嗎?
松原:確實(shí)沒(méi)有具體說(shuō)明,如果能把方法在具體一點(diǎn)就好了。比如深度學(xué)習(xí)要占多大的比例,如果能寫到這份上,理解的人就更多了。那樣的論文才是易懂比較正式的論文。當(dāng)然也有很多論文隱藏的信息更多。
金澤:這么說(shuō)那篇論文的意義很重要。
松原:其實(shí)除了那篇論文,還有很多跟這篇論文相關(guān)的公開論文,如果參考著讀的話就大概可以寫出一個(gè)程序了。比如提到了錄入了3000萬(wàn)棋譜,這些棋譜是選的誰(shuí)的棋譜也沒(méi)寫。但是有可能使用了各大網(wǎng)上的棋譜,大致的方向還是明白的。
金澤:深度學(xué)習(xí)的手段是不是很早就有了?
松原:深度學(xué)習(xí)可以追溯到5,60年前。但是深度學(xué)習(xí)這個(gè)名詞的出現(xiàn)只是在十年前。現(xiàn)在谷歌以及日本的一些公司出一些免費(fèi)軟件以及書籍,使得現(xiàn)在只要有一定能力的學(xué)生,自己就可以根據(jù)深度學(xué)習(xí)就能做出一款軟件了。
金澤:確實(shí),據(jù)說(shuō)圍棋軟件AQ的開發(fā)者也并不是這方面的專家。
松原:深度學(xué)習(xí)在幾年前如果不是專業(yè)人士或者不是學(xué)習(xí)機(jī)械行業(yè)的人,根本沒(méi)法做出來(lái),當(dāng)時(shí)世界上只有幾個(gè)人知道這個(gè)技術(shù)。而最近幾年這項(xiàng)基礎(chǔ)就面向全世界一下子傳開了。
金澤:是因?yàn)橛辛艘欢ǔ晒艜?huì)被關(guān)注的嗎?
松原:只要以免費(fèi)軟件的方式發(fā)布的話,就可以造福全人類,現(xiàn)在這類書只要有人寫就能賣出去,然后涌現(xiàn)出了很多關(guān)于這方面的書籍。比如“絕藝”團(tuán)隊(duì)有幾個(gè)人連圍棋規(guī)則都不知道,但是因?yàn)閲灞粡V泛關(guān)注,于是把這項(xiàng)技術(shù)運(yùn)用到了圍棋上面,然后開發(fā)了“絕藝”。
金澤:谷歌的人員說(shuō),圍棋只是作為實(shí)驗(yàn)的素材,并在一些緊急情況下投入使用。
松原:可以說(shuō)這個(gè)素材非常好。在棋類來(lái)說(shuō),圍棋要比國(guó)際象棋難。圍棋和將棋、國(guó)際象棋不同,并不是把對(duì)方的王吃掉就贏,而是看誰(shuí)圍空多的游戲。在1997年,國(guó)際象棋的世界冠軍卡斯帕羅夫輸給了超級(jí)電腦“深藍(lán)”。并且在世人面前說(shuō):“下一步我們要攻破圍棋”,雖然這對(duì)將棋愛好者來(lái)說(shuō)并不公平,因?yàn)樘^(guò)了將棋這一塊。不過(guò)從日本的情況來(lái)看,在這個(gè)過(guò)程中有了將棋的環(huán)節(jié),才使得圍棋這個(gè)目標(biāo)變得更加的明確了。
和Zen進(jìn)行對(duì)局的井山裕太,Zen在被趙治勛擊敗后,花了三個(gè)月修復(fù)問(wèn)題并戰(zhàn)勝了井山裕太。圖片摘自每日新聞
點(diǎn)擊原文可以閱讀上集,《【對(duì)話·人工智能(上)】讓圍棋界和將棋屆震撼的軟件,是否已經(jīng)達(dá)到了“入神的境界”?》
明天最后一集《【對(duì)話·人工智能(下)】面對(duì)突然襲來(lái)的“第三股力量” 人類該如何面對(duì)》。