T之家6月28日消息 還記得幾年前的那款虐爆全球的《Flappy Bird》嗎?靠著點擊屏幕控制小鳥,躲避路途上的管道障礙的簡單游戲機制,這款免費小游戲一時間成為了iOS平臺下載量最高的游戲。如今,它被包裝成類似吃雞玩法,重回大眾的視線,取名《Flappy Royale》。
>>>點這里游玩《Flappy Bird》吃雞版<<<
改款游戲的玩法與之前已經(jīng)被下架的《超級馬里奧吃雞》相同,玩家將與另外98名對手進行對決,最終只有一名玩家可以笑到最后。眾所周知之前的《Flappy Bird》游戲難度就極大,所以往往一局游戲只能持續(xù)幾秒鐘,所以這是一個非常考驗玩家個人實力的“吃雞”游戲。進入游戲后玩家需要先給自己起一個名字,還可以對自己的“小鳥”進行裝扮,接下來就可以展現(xiàn)自己技術(shù)勇爭第一了。
2014年2月,越南游戲開發(fā)者阮哈東推出于2013年的虐心小游戲《Flappy Bird》在全球意外爆紅。然而,阮哈東后續(xù)推出的幾款作品的市場反應(yīng)都不溫不火。《Flappy Bird》就成為了阮哈東無法逾越的巔峰之作。種種跡象顯示,阮哈東的社交賬號很久沒有更新,工作室主頁亦然,似乎他已經(jīng)從游戲行業(yè)消失了。然而,《Flappy Bird》依然在行業(yè)里以另外的方式“存活著”。《Flappy Royale》就是最新一款基于《Flappy Bird》精神“衍生”的作品,主導(dǎo)者也從阮哈東變成了Orta Therox and Em Lazer-Walker,但是我們并不知道該作是否獲得了阮哈東的授權(quán)。
下來我會開一個新坑,會有一系列的文章,讓有興趣編程、或者正在接觸機器學習的人可以從零開始通過簡單易懂的代碼,來完成讓電腦自動玩轉(zhuǎn)Flappy bird的一件趣事,而且正常來說,你玩得沒它好。:)
強化學習的來源來自于行為主義理論,即物體或機器如何在環(huán)境的刺激和反饋下做出適當?shù)幕貞?yīng),當該回應(yīng)滿足預(yù)期時,則說明該物體或機器已經(jīng)學習到了某種知識。
強化學習本質(zhì)上是在解決決策上的問題,即學會自動進行決策,且決策較為符合預(yù)期的發(fā)展。類比于人類,就是人類為什么能夠做出決策,且方向是按著最優(yōu)方向進行。這個過程,就是強化學習所需要學習的過程。
強化學習作為一個序列決策問題,需要做出一系列決策達到最終目的,就像玩九宮格最終目的是要到達終點前要做一系列動作。當然,這和平時的監(jiān)督學習有著一些區(qū)別,因為監(jiān)督學習有著明確的label,機器去學習用標簽屬性去辨別不同的label。而強化學習有著類似的label作用的值——reward,該值能夠讓機器去辨別這次決策的優(yōu)劣,就像做對了有獎,做錯了懲罰,reward就是表明機器做這次決策有獎還是懲罰的值,來判定下次是否做這次決策。
通過不斷地迭代和試錯,最終結(jié)果是機器的“邏輯思維"是在這種環(huán)境下,我應(yīng)該做什么,在接下來的環(huán)境下,我又應(yīng)該做什么的一種思路。所以強化學習更專注于在線規(guī)劃,需要在Exploration(探索未知的領(lǐng)域)和Exploitation(利用現(xiàn)有知識)之間找到平衡。
圖中黃點是機器人,目的是走到綠色的方塊,reward+1000,黑色方塊是墻壁,撞到reward-10,紅色方塊是陷阱,撞到reward-1000,其他reward+0。那么每次行走一步,黃點會有四個方向的選擇,當前走到下圖方向時:
往右走會撞到黑色方塊reward-100,其他方向reward+0,所以只能往其他方向走,繼續(xù)走,到下圖所示情況。
往右走會撞到黑色方塊reward-100,往下走會撞到紅色方塊reward-1000,左、上方向reward+0,所以只能往左、上方向走。通過不斷地迭代,最終即可找到目標綠色方塊。
以上就是強化學習的一般流程,每一次決策不斷試錯,然后記憶經(jīng)驗,最終往目標方向進行。
下一篇文章會講述強化學習中很實用的一個算法——Q-learning,通過Q-learning算法,你可以清楚地知道機器人在行動時候的reward變化情況,從而知道它下一次的行動軌跡。
期我們將制作一個仿“FlappyBird”的小游戲。
讓我們愉快地開始吧~
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
玩家通過空格鍵控制一只小鳥,使其跨越由各種不同長度水管所組成的障礙物,當小鳥碰撞到障礙物或跌至屏幕最底端時,游戲結(jié)束。
Step1:定義精靈類
為了方便實現(xiàn)小鳥和水管之間碰撞的檢測,我們先定義一些精靈類,包括:
隨著游戲時間的推移,小鳥應(yīng)當具有更新自身位置的能力,即當玩家按下空格鍵時,小鳥向上跳躍,否則小鳥向下墜落。另外,為了使游戲場景更加真實,小鳥在向上跳躍或者向下墜落之前,應(yīng)當先調(diào)整身體角度。具體代碼實現(xiàn)如下:
② 管道類
管道分為管道體和管道頭。管道頭:
管道體:
可先簡單定義如下:
顯然,一個管道頭和若干個管道體組成了一個管道障礙物,管道障礙物兩兩同列,兩者之間留有一定的空間供小鳥穿過,就像這樣:
因此,我們定義一個大的管道類,以便構(gòu)建一個完整的管道障礙物,代碼實現(xiàn)如下:
其中,更新管道的作用為通過管道的左移來實現(xiàn)小鳥不斷右移的效果。
** Step2:實現(xiàn)游戲主循環(huán)**
先初始化,載入圖片、音樂、字體等文件,并定義一些必要的常量:
現(xiàn)在就可以開始定義游戲主循環(huán)了!游戲主循環(huán)的邏輯十分簡單,先顯示游戲背景,然后根據(jù)玩家的操作更新小鳥位置,自動更新管道位置,并通過碰撞檢測以及小鳥的縱坐標來判斷游戲是否結(jié)束,若游戲結(jié)束,則顯示游戲結(jié)束畫面。當然你也需要根據(jù)玩家通過的管道數(shù)量來實時更新玩家當前的分數(shù),這一步需寫在最后,否則分數(shù)會被管道所遮蓋,這顯然是不合理的,具體實現(xiàn)如下:
文章到這里就結(jié)束了,感謝你的觀看~我準備了Python24個小游戲系列,下篇文章仿Google小恐龍
為了感謝讀者們,我想把我最近收藏的一些編程干貨分享給大家,回饋每一個讀者,希望能幫到你們。
干貨主要有:
① 2000多本Python電子書(主流和經(jīng)典的書籍應(yīng)該都有了)
② Python標準庫資料(最全中文版)
③ 項目源碼(四五十個有趣且經(jīng)典的練手項目及源碼)
④ Python基礎(chǔ)入門、爬蟲、web開發(fā)、大數(shù)據(jù)分析方面的視頻(適合小白學習)
⑤ Python學習路線圖(告別不入流的學習)
⑥ 兩天的Python爬蟲訓練營直播權(quán)限