教程：用強化學習玩轉恐龍跳跳

時間 2020-01-20

標籤教程強化學習恐龍简体版

原文原文鏈接

摘要： 本文用強化學習作一個相似障礙跑的小遊戲

DeepMind在2013年發表了一篇題爲《用深度強化學習玩Atari》的文章，介紹了一種新的用於強化學習的深度學習模型，並展現了它僅使用原始像素做爲輸入來掌握Atari 2600計算機遊戲難度控制策略的能力。在本教程中，我將使用Keras實現本文。咱們將從加強學習的基礎開始，而後深刻代碼中進行實踐性的理解。python

AI玩遊戲git

我在2018年3月初開始了這個項目，並取得了一些不錯的成果。可是，只有CPU的系統是學習更多功能的瓶頸。強大的GPU極大地提高了性能。github

在咱們運行模型以前，咱們須要瞭解許多步驟和概念。算法

步驟：chrome

在瀏覽器（JavaScript）和模型（Python）之間構建雙向接口
捕獲和預處理圖像
訓練模型
評估
源代碼：https://github.com/Paperspace...瀏覽器

入門

要按照原樣訓練和玩遊戲，請在設置環境後克隆GitHub存儲庫網絡

Git克隆：https://github.com/Paperspace...架構

並在jupyter notebook上工做。框架

Reinforcement Learning Dino Run.ipynb機器學習

確保你第一次運行init_cache()來初始化文件系統結構。

強化學習

對許多人來講，這多是一個新詞，但咱們每一個人都已經學會了使用強化學習（RL）的概念，這就是咱們的大腦仍然工做的方式。獎勵系統是任何RL算法的基礎。若是咱們回到兒童走路的比喻，積極的獎勵將是來自父母的鼓掌或可以獲得糖果，而負面獎勵將是沒有糖果。孩子在開始走路以前首先學會站起來。就人工智能而言，代理商的主要目標（在咱們的案例中是Dino）是經過在環境中執行特定的操做序列來最大化某個數值獎勵。RL中最大的挑戰是缺少監督（標記數據）來指導代理人。它必須本身探索和學習。代理從隨機執行行動開始，觀察每一個行動帶來的回報，並學習如何在面臨相似環境情況時預測最佳行動。

一個普通的強化學習框架

Q-learning

咱們使用Q-learning, RL的一種技術，在這裏咱們嘗試去近似一個特殊的函數，它能夠驅動任意環境狀態序列的動做選擇策略。Q- Learning是一種沒有模型的強化學習的實現，它根據每一個狀態、所採起的行動和所產生的獎勵來維護一個Q值表。一個示例q表應該告訴咱們數據是如何構造的。在咱們的例子中，狀態是遊戲截圖和動做，什麼都不作，而後跳轉[0,1]。

樣本Q表

咱們利用深度神經網絡經過迴歸來解決這個問題，並選擇具備最高預測Q值的動做。有關Q-learning的詳細瞭解，請參閱Tambet Matiisen撰寫的這篇使人驚歎的博客文章。你也能夠參考我之前的文章，瞭解全部Q-learning特有的超參數。

創建

讓咱們設置咱們的環境來開始訓練過程。

1.選擇虛擬機：

咱們須要一個完整的桌面環境，在這裏咱們能夠捕獲和利用屏幕截圖進行培訓。我選擇了一個Paperspace ML-in-a-box（MLIAB）Ubuntu鏡像 MLIAB的優點在於它預裝了Anaconda和許多其餘ML庫。

盒子中的機器學習

2.配置和安裝Keras以使用GPU：

咱們須要安裝keras和tensorflow的GPU版本。Paperspace的虛擬機具備這些預先安裝的，可是若是不安裝它們的話

pip install keras

pip install tensorflow

另外，確保GPU能夠被設置識別。執行下面的python代碼，你應該看到可用的GPU設備

from keras import backend as K

K. tensorflow_backend._get_available_gpus()

3.安裝依賴項

Selenium pip install selenium

OpenCV pip install opencv-python

從 http://chromedriver.chromium....

遊戲框架

你能夠經過將瀏覽器指向chrome://dino或只要拔掉網絡插頭來啓動遊戲。若是咱們想修改遊戲代碼的話，另外一種方法是從chromium的開源存儲庫中提取遊戲。

咱們的模型是用python編寫的，遊戲是用JavaScript構建的，咱們須要一些接口工具讓它們相互通訊。

【Selenium是一種流行的瀏覽器自動化工具，用於向瀏覽器發送操做，並獲取當前分數等不一樣的遊戲參數。】

如今咱們有一個接口來發送動做到遊戲中，咱們須要一種機制來捕獲遊戲屏幕。

【Selenium和OpenCV分別爲屏幕捕獲和圖像預處理提供了最佳性能，實現了6-7 fps的降低幀率。】

咱們每一個時間幀只須要4幀，足以將速度做爲一項功能來學習。

遊戲模塊

咱們使用這個模塊實現了Python和JavaScript之間的接口。下面的代碼片斷會給你一個關於模塊中發生的事情的要點。

代理模塊

咱們使用代理模塊來封裝全部的接口。咱們使用此模塊控制Dino，並獲取環境中的代理狀態。

遊戲狀態模塊

要將操做發送到模塊並得到環境做爲該操做的結果轉換爲的結果狀態，咱們使用遊戲狀態模塊。它經過接收和執行動做、決定獎勵和返回經驗元組來簡化過程。

圖像管道

圖像捕捉

咱們能夠經過多種方式捕獲遊戲屏幕，例如使用PIL和MSS python庫截取整個屏幕和裁剪區域。然而，最大的缺點是對屏幕分辨率和窗口位置的敏感度。幸運的是，遊戲使用了HTML Canvas。咱們可使用JavaScript輕鬆得到base64格式的圖像。咱們使用selenium來運行這個腳本。

從畫布中提取圖像

圖像處理

所捕獲的原始圖像的分辨率約爲600x150，有3個(RGB)通道。咱們打算使用4個連續的屏幕截圖做爲模型的一個輸入。這就使得咱們對尺寸600x150x3x4的單個輸入。這在計算上是昂貴的，並非全部的功能均可用於玩遊戲。因此咱們使用OpenCV庫來調整大小、裁剪和處理圖像。最終的處理輸入僅爲80x80像素和單通道(灰度)。