強化學習-MDP(馬爾可夫決策過程)算法原理

時間 2019-12-05

標籤強化學習 mdp 決策過程算法原理简体版

原文原文鏈接

1. 前言

前面的強化學習基礎知識介紹了強化學習中的一些基本元素和總體概念。今天講解強化學習裏面最最基礎的MDP（馬爾可夫決策過程）。html

2. MDP定義

MDP是當前強化學習理論推導的基石，經過這套框架，強化學習的交互流程能夠很好地以機率論的形式表示出來，解決強化學習問題的關鍵定理也能夠依此表示出來。算法

MDP(馬爾可夫決策過程)包含如下三層含義:框架

「馬爾可夫」表示了狀態間的依賴性。當前狀態的取值只和前一個狀態產生依賴，不和更早的狀態產生聯繫。雖然這個條件在有些問題上有些理想，可是因爲它極大地簡化了問題，因此人們一般會選擇使用它。
「決策」表示了其中的策略部分將由Agent決定。Agent能夠經過本身的行動改變狀態序列，和環境中存在的隨機性共同決定將來的狀態。
「過程」表示了時間的屬性。若是把Agent和環境的交互按時間維度展開，那麼Agent行動後，環境的狀態將發生改變，同時時間向前推動，新的狀態產生，Agent將得到觀測值，因而新的行動產生，而後狀態再更新」

3. 價值函數

前面介紹了MDP的基本形式，咱們發現遊戲的關鍵在於策略(policy)，也就是如何作出決策與執行行動。在理想狀態下，每個行動都要爲最終的目標——最大化長期回報努力，那麼理論上只要可以找到一種方法，量化每個行動對實現最終目標貢獻的價值，這個方式就是用價值函數（簡稱值函數）來衡量。函數

值函數分兩類：學習

狀態值函數\(v_{\pi}(s)\):也就是已知當前狀態s，按照某種策略行動產生的長期回報指望。
狀態-行動值函數\(q_{\pi}(s,a)\):也就是已知當前狀態s和行動a，按照某種策略行動產生的長期回報指望。

其中的\(\pi\)是一個行動策略。spa

3.1 狀態值函數

咱們從下圖中來學習狀態值函數：htm

咱們計算左邊的\(s^0\)狀態的\(v(s^0)\)，咱們能夠經過它後面的\(r_{a_i}^{s^1_{0,i}}+s^1_{0,i}\)加權的和，其中\(r_{a_i}^{s^1_{0,i}}\)是採起行動\(a_i\)後得到的獎勵。blog

因此有狀態值函數的Bellman公式：
\[ v_{\pi}(s_t)=\sum_{a_t}\pi(a_t|s_t)\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)[r_{a_t}^{s_{t+1}} + \gamma * v_{\pi}(s_{t+1})]\;\;\;\;\;\;(1) \]
經過這樣的計算，咱們發現狀態值函數能夠以遞歸的形式表示。假設值函數已經穩定，任意一個狀態的價值能夠由其餘狀態的價值獲得。遞歸

3.2 狀態-行動值函數

和狀態值函數的推到同樣，咱們有下面這張狀態-行動值函數，它是以\(q(s,a)\)爲目標來計算值函數。遊戲

一樣和狀態值函數同樣，狀態-行動值函數也有相應的Bellman公式:

\[ q_{\pi}(s_t,a_t)=\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)[r_{a_t}^{s_{t+1}} + \gamma * \sum_{a_{t+1}}\pi(a_{t+1}|s_{t+1})q_{\pi}(s_{t+1},a_{t+1})]\;\;\;\;\;\;(2) \]
這個公式和上面的狀態值函數的很是相似。

以上\((1)(2)\)個Bellman公式是MDP中最核心的內容，後面的各類強化學習的算法也是創建在上面2個Bellman公式之上。

經過\((1)(2)\)，咱們還能推導出\(v_{\pi}(s_t),q_{\pi}(s_t,a_t)\)之間的關係。

\[ v_{\pi}(s_t)=\sum_{a_t}\pi(a_t|s_t)q_{\pi}(s_t,a_t)\;\;\;\;\;\;(3) \]

\[ q_{\pi}(s_t,a_t)=\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)[r_{a_t}^{s_{t+1}} + \gamma * v_{\pi}(s_{t+1})]\;\;\;\;\;\;(4) \]

其實\((3)(4)\)也能夠經過上面2幅圖獲得驗證。