The option-critic architecture

Abstract

時間抽象是強化學習中擴大學習和規劃的關鍵。雖然計劃與時間擴展的行動是衆所周知的,但從數據中自主地建立這樣的抽象仍然具備挑戰性。咱們在option框架內解決這個問題[Sutton,Precup&Singh,1999;Precup,2000]。咱們推導了option的策略梯度定理,並提出了一種新的 \(opiton\text{-}critic\) 體系結構,它可以同時學習 option 的內部策略和終止條件,而且不須要提供任何額外的獎勵或子目標。在離散和連續環境下的實驗結果代表了該框架的靈活性和高效性。ios

Temporal abstraction:算法

Introduction

時間抽象容許表示發生在不一樣時間尺度上的行爲過程的知識。網絡

How to understand? Option?架構

在強化學習中,option(Sutton、Precup和Singh 1999;Precup 2000)爲定義此類行動方案以及與之無縫地學習和規劃提供了框架。在過去的15年裏,自主地發現時間抽象一直是普遍研究的主題(McGovern和Barto 2001;Stolle和Precup 2002;Menache、Mannor和Shimkin 2002;S¸ims¸ek和Barto 2009;Silver和Ciosek 2012),可是能夠天然地與連續狀態和/或動做空間一塊兒使用的方法直到最近纔開始變得可行(Konidaris等人。2011年;Niekum 2013年;Mann、Mannor和Precup 2015年;Mankowitz、Mann和Mannor 2016年;Kulkarni等人。2016年;V ezhnevets等人。2016年;Daniel等人。2016年)。app

現有的大部分工做都集中在尋找子目標(代理應該達到的有用狀態)以及隨後學習實現這些目標的策略。這一想法致使了有趣的方法,但由於他們的 "combinatorial" flavor 也很難擴大規模,。此外,與子目標相關的策略學習在數據和計算時間方面可能代價很大;在最壞的狀況下,它可能與解決整個任務同樣昂貴。框架

咱們提出了另外一種觀點,它模糊了發現option問題和學習option問題之間的界限。基於policy gradient 定理(Sutton等人。2000年),咱們獲得了一些新的結果,這些結果使得 \(intra-option\) 政策和終止函數的逐步學習過程可以與對它們的策略同時進行。在離散或連續的狀態空間和動做空間下,這種方法能夠天然地處理線性和非線性函數逼近器。當從單個任務中學習時,現有的學習option方法要慢得多:在相似的任務中重複使用已學習的選項,這是很大的好處。相比之下,咱們證實了咱們的方法可以在單個任務中成功地學習選項,而不會致使任何減速,同時仍然爲轉移學習提供好處。函數

  1. 咱們首先回顧與咱們工做的兩個主要組成部分相關的背景:policy gradient method 和 option。
  2. 而後咱們描述了咱們方法的核心思想:the intra-option policy 和 termination gradient theorems。附加技術細節見附錄。
  3. 實驗結果代表,咱們的方法可以有效地學習有意義的時間擴展行爲。與其餘方法不一樣,咱們只須要指定所需選項的數量;不須要有子目標、額外獎勵、描述demonstrations、多重問題或任何其餘特殊調整(可是,若是須要,該方法能夠利用僞獎勵函數)。據咱們所知,這是第一個端到端的學習方法,能夠以至關的效率擴展到很是大的領域。

Preliminaries and Notation

一個馬爾可夫決策過程包括:性能

\[狀態空間:\mathcal{S} \\ 動做空間:\mathcal{A} \\ 轉移函數P:\mathcal{S}\times\mathcal{A}\to \mathbb{R} \]

爲了方便起見,咱們發展了假設離散狀態和做用集的思想。然而,咱們的結果擴展到連續空間使用一般的測量理論假設(咱們的一些經驗結果是在連續任務)。A (Markov Stationary) \(policy\) 是以狀態爲條件在動做上的機率分佈:$$\pi:\mathcal{S}\times\mathcal{A}\to[0,1]$$學習

在discount probelem中,策略\(\pi\)的值函數定義爲指望:優化

\[V_\pi(s)=\mathbb{E}_\pi[\sum_{t=0}^\infty \gamma^tr_{t+1}|s_0=s] \]

其動做值函數爲:

\[Q_\pi(s,a)=\mathbb{E}_\pi[\sum_{t=0}^\infty \gamma^tr_{t+1}|s_0=s, a_0=a] \]

其中\(\gamma\in[0,1)\),爲折扣因子。

一個策略 \(\pi\) 對給定的動做值函數 \(Q\) 是貪婪的,若是\(\pi(s,a)>0\)當且僅當\(a=\mathop{\arg\min}_{a'}Q(s,a')\)

在離散MDP中,至少有一個最優策略對其自身的做用值函數是貪婪的。

Policy gradient methods

policy gradient 方法(Sutton等人。2000;Konda和Tsitsiklis 2000)經過執行隨機梯度降低來優化給定參數化隨機策略族 \(\pi_\theta\) 的性能目標,來解決尋找一個好策略的問題。policy gradient 定理(Sutton等人。2000)提供了平均獎勵和折扣獎勵目標相對於θ的梯度的表達式。

在discounted 的設置下,目標是根據指定的開始狀態(或分佈)來定義的:

\[s_0:\rho(\theta,s_0)=\mathbb{E}_{\pi\theta}[\sum_{t=0}^{\infty}\gamma^tr_{t+1}|s_0]\tag{a-1} \]

Policy gradient 定理代表:

\[\frac{\partial\rho(\theta,s_0)}{\partial\theta}=\sum_s\mu_{\pi\theta}(s|s_0)\sum_a\frac{\partial\pi_{\theta}(a|s)}{\partial\theta}Q_{\pi\theta}(s,a) \]

\[\mu_{\pi\theta}(s|s_0)=\sum_{t=0}^{\infty}\gamma^tP(s_t=s|s_0) \]

\(\mu_{\pi\theta}(s|s_0)\) 是從 \(s_0\) 開始沿軌道的狀態的折扣權重。

在實際應用中,政策梯度是沿着 on-policy 上的平穩分佈從樣本中估計出來的。(Thomas 2014)代表,忽略此平穩分佈中的折扣因子會使一般的政策梯度估計有誤差。然而,糾正這種差別也會下降數據效率。爲了簡單起見,咱們創建在(Sutton et al並根據(Thomas 2014)討論如何擴展咱們的結果。

The options framework

The options framework(Sutton、Precup和Singh 1999;Precup 2000)將時間擴展行動的概念正式化。

\[\text{Markov option }\omega\in\Omega \ is\ (\mathcal{I}_\omega,\pi_\omega,\beta_\omega)= \begin{cases} \mathcal{I}_\omega \subseteq\mathcal{S}\\ \pi_\omega:intra\text{-}option \text{ policy}\\ \beta_\omega \end{cases} \]

咱們同時假設全部的options在任何地方均可以使用,即 \(\forall s\in\mathcal{S},\forall \omega\in\Omega:s\in\mathcal{I}_\omega\)這是大多數option發現算法中的一種假設。咱們將在最後一節討論如何消除這種假設。(Sutton,Precup,and Singh 1999;Precup 2000)代表,賦予一組option的MDP成爲一個半馬爾可夫決策過程(Puterman 1994,第11章),它在 \(V_\Omega(s)\) 和 option-value function \(Q_\Omega(s,\omega)\) 上具備對應的最優值函數。mdp的學習和規劃算法在這種狀況下有對應的算法。然而,底層MDP的存在提供了並行學習許多不一樣選項的可能性:這就是 \(intra\text{-}option\ learning\) 的思想,咱們在工做中利用了這種思想。

Learning Options

咱們對學習選擇問題採起了持續的觀點。在任什麼時候候,咱們都但願將全部可用的經驗提煉到咱們系統的每一個組成部分:value function, policy over options, intra-option policies and termination functions 價值函數和期權政策、期權內政策和終止函數。爲了實現這一目標,咱們重點學習期權策略和終止函數,假設它們是用可微參數化函數逼近器表示的。

differentiable parameterized function approximators 可微參數化函數逼近器:

有不少 differentiable function approximators,如:

  • 線性模型(Linear combinations of features)
  • 神經網路(Neural network)
  • 決策樹(Decision tree)
  • 最近鄰(Nearest neighbour)
  • ...

咱們考慮了 \(call-and-return\) 執行模型,在該模型中,agent根據其在 \(\pi_\Omega\) 的策略選擇option \(\omega\) ,而後遵循其 \(intra-option\) policy \(\pi_\omega\)直到終止(由 \(\beta_\omega\) 決定),此時該過程重複進行。

\(\pi_{\omega,\theta}\) 表示由θ參數化的option ω的intra-option policy,\(\beta_{\omega,\vartheta}\) 是由ϑ參數化的ω的終止函數。咱們提出了兩個新的學習option的結果,獲得了做爲藍圖的政策梯度定理(薩頓等人。2000年)。這兩個結果都是在假設目標是學習使當前任務的預期收益最大化的option的前提下得出的。然而,若是要在目標函數中添加額外的信息,只要它以加性可微函數的形式出現,就能夠很容易地作到這一點功能。

additive differentiable function:

假設咱們的目標是優化在全部從指定狀態 \(s_0\) 和option \(\omega_0\) 的軌跡上指望的discounted return,而後

\[\rho(\Omega,\theta,\vartheta,s_0,\omega_0)=\mathbb{E}_{\Omega,\theta,\omega}[\sum_{t=0}^{\infty}\gamma^tr_{t+1}|s_0,\omega_0] \]

7.24:此公式相對於式(a-1)同爲 \(\rho()\) ,應該一樣理解爲\(s_0\) 的分佈

請注意,此return取決於policy over options,以及option policies和termination函數的參數。咱們將取這個目標相對於θ和ϑ的梯度。爲了作到這一點,咱們將使用相似於 \(intra-option\) 學習中使用的方程(Sutton,Precup,and Singh 1999,第8節)。具體來講,option-value 函數的定義能夠寫成:

\[Q_\Omega(s,\omega)=\sum_a\pi_{\omega,\theta}(a|s)Q_U(s,\omega,a)\tag{1} \]

首先能夠很直觀地看出此方法不是將option視爲不可觀察的黑盒,而是能夠觀察其內部更基礎的action。基於此上式即可以理解爲,option-value function就是基於狀態s,option內策略獲得值的指望,因此 \(Q_U()\) 從這個表達式推斷,就能夠推測是用來描述option內的state-action值函數,至關因而option的qlearning過程的值函數

\(Q_U:\mathcal{S}\times\Omega\times\mathcal{A}\to\mathbb{R}\)是在state-option對的環境中中執行action的值:

\[Q_U(s,\omega,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)U(\omega,s')\tag{2} \]

經過文章內的描述能夠得知以前的推斷是正確的,可是徹底理解爲option內的q-learning仍是不妥

注意,\((s,ω)\)對致使了一個擴大的狀態空間,參見(Levy和Shimkin 2011)。可是,咱們不會顯式地處理這個空間;它只用於簡化推導。函數\(U:\Omega\times\mathcal{S}\to\mathbb{R}\)稱爲到達時的option-value函數(Sutton、Precup和Singh 1999,方程20)。

進入狀態 \(s'\) 時執行 \(ω\) 的值由下式給出:

\[U(\omega,s')=(1-\beta_{\omega,\vartheta}(s'))Q_\Omega(s',\omega)+\beta_{\omega,\vartheta}(s')V_\Omega(s')\tag{3} \]

Between MDPs and semi-MDP中的表達式爲:\(U(s,o)=(1-\beta(s))Q(s,o)+\beta(s)\mathop{\max}_{o'\in\mathcal{O'}}Q(s,o')\)

\(U(\omega,s')\) 的含義也即高亮——進入狀態 \(s'\) 時執行 \(\omega\) 的值

\(P(s'|s,a)\) 指(s,a)時s'的機率,因此\(\sum_{s'}P(s'|s,a)U(\omega,s')\)\(\mathbb{E}[\omega|s,a]\)

請注意, \(Q_U\) and \(U\) 都依賴於θ和ϑ,但爲了清楚起見,咱們不在符號中包含它們。導出策略梯度所需的最後一個要素是Markov鏈,沿着該鏈能夠估計性能度量。天然的方法是考慮在增廣狀態空間中定義的鏈,由於state-option對如今在一般的Markov鏈中扮演regular state的角色。若是option \(\omega_t\) 已經啓動或在狀態st的時間t執行,則一步中轉換到 \((s_{t+1},ω_{t+1})\) 的機率爲:

\[P(s_{t+1},\omega_{t+1}|s_t,\omega_t)=\sum_a\pi_{\omega_t,\theta}(a|s_t)P(s_{t+1},a)((1-\beta_{\omega,\vartheta}(s_{t+1}))\mathbb{1}_{\omega_t=\omega_{t+1}}+\beta_{\omega,\vartheta}(s_{t+1})\pi_\Omega(w_{t+1}|s_{t+1}))\tag{4} \]

顯然,(4)給出的過程是均勻的。在溫和的條件下,且期權無處不在,它其實是遍歷的,而且在state-option對上存在惟一的穩態分佈(stationary distribution)。

\(\mathbb{1}_{\omega_t=\omega_{t+1}}\) 的含義:

穩態分佈:

假設期權內政策的參數θ是隨機可微的,咱們如今將計算預期折現收益率的梯度。

從式(1,2)能夠獲得:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\left(\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a)\right) + \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\theta} \]

咱們能夠用(3)和(4)進一步展開右手邊,獲得如下定理:

Intra-Option Policy Gradient Theorem

**Theorem 1 (Intra-Option Policy Gradient Theorem). **

給定一組參數θ可微的隨機內期權策略的Markov期權,其指望折現收益率相對於θ和初始條件(s0,ω0)的梯度爲:

\[\sum_{s,\omega}\mu_\Omega(s,\omega|s_0,\omega_0)\sum_a\frac{\partial \pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) \]

其中\(\mu_\Omega(s,\omega|s_0,\omega_0)\) 是狀態選項對沿着從(s0)開始的軌跡的貼現加權,

\[\mu_\Omega(s,\omega|s_0,\omega_0)=\sum_{t=0}^{\infty}\gamma^tP(s_t=s,\omega_t=\omega|s_0,\omega_0) \]

證實在附錄中。這個梯度描述了原始水平上局部變化對全局指望折現收益的影響。相反,子目標或僞獎勵方法假設期權的目標僅僅是優化其自身的獎勵函數,而忽略了提議的變動如何在整體目標中傳播。

如今咱們將注意力轉向計算終止函數的梯度,此次假設是隨機的,而且在ϑ中是可微的。

從(1,2,3)能夠獲得:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\vartheta}=\sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\vartheta} \]

所以,關鍵量是U的梯度。這是調用和返回執行的天然結果,其中終止函數的「善」只能在進入下一個狀態時評估。相關梯度可進一步擴展爲:

\[\frac{\partial U(\omega,s')}{\partial\vartheta}=-\frac{\partial\beta_{\omega,\vartheta}(s')}{\partial\vartheta}A_\Omega(s',\omega)+\gamma\sum_{\omega'}\sum_{s''}P(s'',\omega')\frac{\partial U(\omega',s'')}{\partial\vartheta}\tag{5} \]

其中 \(A_\Omega\) 是advantage function(Baird,1993),\(A_\Omega(s',\omega)=Q_\Omega(s',\omega)-V_\Omega(s')\)

遞歸地展開 \(\frac{\partial U(\omega',s'')}{\partial\vartheta}\) 獲得了與定理(1)類似的形式,但其中狀態-選項對的權重如今是根據移動一個時間步的馬爾可夫鏈:\(\mu_\Omega(s_{t+1},\omega_t|s_t,\omega_{t+1})\)(詳見附錄)。

Termination Gradient Theorem

Theorem 2 (Termination Gradient Theorem).

給出一組隨機終止函數在其參數ϑ上可微的Markov期權,指望折現收益目標相對於ϑ和初始條件(s1,ω0)的梯度爲:

\[-\sum_{s',\omega}\mu_\Omega(s',\omega|s_1,\omega_0)\frac{\partial \beta_{\omega,\vartheta}(s')}{\partial\vartheta}A_\Omega(s',\omega) \]

其中\(\mu_\omega(s',\omega|s_1,\omega_0)\) (s1,ω0)中狀態選項對的貼現權重:

\[\mu_\Omega(s,\omega|s_1,\omega_0)=\sum_{t=0}^\infty\gamma^tP(s_{t+1}=s,\omega+t=\omega|s_1,\omega_0) \]

優點函數常常出如今政策梯度方法中(Sutton等人。2000年)在造成基線以減小梯度估計的方差時。它在這種狀況下的出現主要與算法設計有關。有趣的是,在咱們的例子中,它是推導的直接結果,而且給了定理一個直觀的解釋:當期權選擇相對於全部期權的指望值是次優時,優點函數是負的,它推進梯度修正上升,這增長了終止的概率。終止後,代理有機會使用πΩ選擇更好的選項。相似的想法也構成了期權的中斷執行模型(Sutton,Precup,and Singh 1999),在該模型中,只要QΩ(s?,ω)對於電流選項ω小於VΩ(s?)。(Mann、Mankowitz和Mannor 2014)最近在數值迭代設置下,經過打斷Bellman算子的鏡頭研究了中斷選項。終止梯度定理能夠解釋爲提供了一個基於梯度的中斷Bellman算子。

Algorithms and Architecture

基於定理1和定理2,咱們如今能夠設計一個學習選項的隨機梯度降低算法。利用雙時間尺度框架(Konda和Tsitsiklis 2000),咱們建議在快速的時間尺度上學習值,同時以較慢的速度更新內部期權策略和終止函數。

咱們將產生的系統稱爲一個選項批評家架構,參考actor-critical架構(Sutton 1984)。期權內策略、終止函數和期權上的策略屬於系統的參與者部分,而批評家則由量子和AΩ組成。期權批評家體系結構沒有規定如何得到πΩ,由於現有的各類方法均可以應用:在SMDP級別使用策略梯度方法,在期權模型上使用規劃器,或者使用時間差分更新。若是πΩ是貪婪策略對期權,則由(2)獲得相應的一步策略更新目標g(1)t爲:

\[g_t^{(1)}=r_{t+1}+\gamma\left( (1-\beta_{\omega_t,\vartheta}(s_{t+1}))\sum_a\pi_{\omega_t,\theta}(a|s_{t+1})Q_U(s_{t+1},\omega_t,a)\\ +\beta_{\omega_t,\vartheta}(s_{t+1})\mathop{\max}_\omega\sum_a\pi_{\omega_t,\theta}(a|s_{t+1})Q_U(s_{t+1},\omega,a)\right) \]

這也是Sutton,Precup和Singh 1999的intra-option Q-learning算法的更新目標。算法1給出了一個使用選項內Q學習的option critic的原型實現。表格設置僅爲清晰呈現而設。咱們分別給出了批評家、期權內策略和終止函數的學習率的α、αθ和αϑ。

image-20200724144437753

學習QΩ的QUin加法在計算上浪費了大量的參數和樣本。一個實際的解決方案是隻學習QΩ並從中獲得qu的估計值。由於屈是對下一個國家的指望, \(Q_U(s,\omega,a)=\mathbb{E}_{s'\sim P}[r(s,a)+\gamma U(\omega,s')|s,\omega,a]\) ,結果代表g(1)t是一個合適的估計量。咱們選擇這種方法做爲咱們在街機學習環境中使用深度神經網絡的實驗。

Experiments

咱們首先考慮四個房間域中的導航任務(Sutton、Precup和Singh 1999)。咱們的目標是評估一組徹底自主學習的選項從環境的忽然變化中恢復過來的能力。(Sutton,Precup,and Singh 1999)對一組預先指定的選項提出了一個相似的實驗;咱們的結果中的選項並非事先指定的。

最初目標位於東門,初始狀態從全部其餘單元統一繪製。1000集以後,目標移動到右下角房間的一個隨機位置。原始移動可能以1/3的機率失敗,在這種狀況下,代理會隨機過渡到一個空的相鄰單元。折扣係數爲0.99,進球時獎勵爲+1,不然獎勵爲0。咱們選擇用Boltzmann分佈參數化期權內策略,用sigmoid函數參數化終止策略。利用期權內Q學習方法學習了期權優先策略。咱們還使用Boltzmann策略實現了原始的actor-critic(表示爲AC-PG)。咱們還比較了期權評論家和原始的薩爾薩代理使用玻爾茲曼勘探和沒有資格痕跡。對於全部的Boltzmann策略,咱們將溫度參數設置爲0.001。全部的權重都被初始化爲零。

image-20200724150424942

如圖2所示,當目標忽然改變時,OptionCritic代理恢復得更快。此外,初始的選項集是從零開始學習的速度可與原始方法相媲美。儘管這個領域很簡單,但咱們尚未發現其餘方法能夠在不產生比單獨使用原始操做時更大的成本的狀況下解決這個任務(McGovern和Barto 2001;S¸ims¸ek和Barto 2009)。

image-20200724150457309

在有4個選項和8個選項的兩個臨時擴展設置中,終止事件更可能發生在門口附近(圖3),這與直覺一致,即它們是好的子目標。與(Sutton,Precup,and Singh 1999)相反,咱們本身並無對這些知識進行編碼,而是讓代理找到可以最大化預期貼現回報的選項。

能夠參考的其餘理解

知乎 【強化學習算法20】option-critic

相關文章
相關標籤/搜索