鄭重聲明:原文參見標題,若有侵權,請聯繫做者,將會撤銷發佈!git
[Submitted on 9 May 2017 (v1), last revised 31 Oct 2020 (this version, v2)]github
Abstract算法
策略迭代(PI)是策略評估和改進的遞歸過程,用於解決最優決策/控制問題,換句話說,就是RL問題。PI也是開發RL方法的基礎。在本文中,對於連續時間和空間(CTS)中的通用RL框架,咱們提出了兩種PI方法,分別稱爲差分PI (DPI)和積分PI (IPI)及其變體,其中,環境經過常微分方程(ODE)系統建模。所提出的方法繼承了經典RL中PI的當前想法和最優控制,並在理論上支持CTS中現有的RL算法:TD學習和基於價值梯度(VGB)的貪婪策略更新。咱們還提供案例研究,包括1)折扣RL和2)最優控制任務。基本的數學屬性——可允許性,Bellman方程(BE)解的惟一性,單調改進,收斂性和Hamilton-Jacobi-Bellman方程(HJBE)解的最優性——都通過深刻研究並根據現有理論,以及通用和案例研究得以提升。最後,使用倒立擺模型以及基於模型和部分無模型的實現對提出的模型進行仿真,以支持該理論並進一步研究它們。網絡
Key words: policy iteration, reinforcement learning, optimization under uncertainties, continuous time and space, iterative schemes, adaptive systems框架
1 Introductionide
策略迭代(PI)是一類近似動態規劃(ADP),用於經過在策略評估之間交替以得到價值函數(VF)來遞歸解決最優決策/控制問題。當前的策略(又稱當前控制理論中的控制方法)和策略改進,經過使用得到的VF對其進行優化來改進策略(Sutton and Barto, 2018; Puterman, 1994; Lewis and Vrabie, 2009)。PI最初是由Howard (1960)在稱爲Markov決策過程(MDP)的隨機環境中提出的,並已成爲開發RL方法的基本原理,尤爲是在離散時間和空間由MDP建模或近似的環境中。經過有限的MDP的有限時間收斂,已經證實這樣的PI向最優解收斂(Puterman, 1994, 定理6.4.2和6.4.6)。與其餘ADP方法同樣,PI的即時前向計算減輕了被稱爲維數災難的問題(Powell, 2007)。折扣因子γ ∈ [0, 1]一般被引入PI和RL,以抑制將來獎勵並所以得到有限回報。Sutton and Barto (2018)全面概述了PI和RL算法及其實際應用和最近取得的成功。函數
另外一方面,在大多數狀況下,實際物理任務的動態不可避免地在連續時間和空間(CTS)中建模爲(常)微分方程(ODE)系統。在這種連續域中也主要在肯定性最優控制的框架內研究了PI,其中最優解的特徵在於偏微分Hamilton-Jacobi-Bellman (HJB)方程(HJBE)。可是,除極少數例外狀況外,HJBE很難用解析法解決。該領域中的PI方法一般稱爲HJBE的逐次逼近(用於遞歸求解!),它們之間的主要區別在於其策略評估——較早的PI方法能夠解決相關的差分Bellman方程(BE)(又名Lyapunov或Hamiltonian方程)以獲取目標策略的每一個VF(例如Leake and Liu, 1967; Kleinman, 1968; Saridis and Lee, 1979; Beard, Saridis and Wen, 1997; Abu-Khalaf and Lewis, 2005,僅舉幾例)。Murray, Cox, Lendaris and Saeks (2002)提出了基於軌跡的策略評估,能夠將其視爲肯定性蒙特卡洛預測(Sutton and Barto, 2018)。受以上兩種方法的啓發,Vrabie and Lewis (2009)提出了一種部分無模型1的PI方案,這被稱爲積分PI (IPI),該方案與RL更相關,由於相關的BE具備TD形式——參見Lewis and Vrabie (2009)的全面概述。在上面的文獻中研究了這些PI的基本數學特性,即策略收斂性,可接納性和單調改進。結果代表,PI方法生成的策略老是單調地改進並能夠接受的。在LQR狀況下,由PI方法在CTS中生成的VF序列在二次方收斂到最優解(Kleinman, 1968)。這些基本屬性在本文中以包括RL和CTS中的最優控制問題在內的通用設置進行了討論,改進和推廣。學習
另外一方面,上述CTS中的PI方法都是經過Lyapunov穩定性理論(Khalil, 2002)設計的,以確保所生成的策略都漸近地穩定動態併產生有限回報(至少在平衡狀態附近的有限區域上),前提是最初的策略也是如此。在此,初始策略下的動態須要漸近穩定才能運行PI方法,可是,這對於IPI來講是很是矛盾的——它是部分無模型的,可是若是沒有這種策略,很難找到甚至沒法實現這種穩定策略而不須要了解動態。此外,與CTS中的RL問題相比(例如Doya, 2000; Mehta and Meyn, 2009; Frémaux, Sprekeler, and Gerstner, 2013),基於穩定性的方法限制了折扣因子γ和動態的類別和成本(即獎勵)以下。優化
在本文中,咱們考慮了CTS中的通用RL框架,其中施加了合理的最小假設——1)狀態軌跡的全局存在和惟一性;2)(必要時)連續性,可微性和/或函數的最大值的存在,以及3)沒有對摺扣因子γ ∈ (0, 1]進行假設——包括各類各樣的問題。本文中的RL問題不只包含RL文獻中的那些問題(例如,Doya, 2000; Mehta and Meyn, 2009; Frémaux et al., 2013),但也考慮了穩定框架(至少在理論上)之外的狀況,在這種狀況下,狀態軌跡仍可能受到限制甚至分散(命題2.2; §5.4; 附錄§§第31-34頁的G.2和G.3)也包括RL和最優控制文獻中做爲特殊狀況出現的輸入受限和無約束問題。this
獨立於PI的研究,基於離散域中的RL想法,在CTS中提出幾種RL方法。優點更新是由Baird III (1993)提出,而後由Doya (2000)在ODE系統所表明的環境下從新制定的;另請參閱Tallec, Blier, and Ollivier (2019)最近對使用深度神經網絡進行的優點更新的擴展。Doya (2000)也將TD(λ)擴展到CTS域,而後將其與他提出的策略改進方法(例如基於價值梯度(VGB)的貪婪策略更新)結合起來。另請參閱Frémaux et al. (2013)對Doya (2000)的連續actor-critic (SNN)拓展。Mehta and Meyn (2009)提出基於隨機逼近的CTS中的Q學習。可是,與MDP不一樣,因爲最優控制和RL之間的差距,這些RL方法不多與CTS中的PI方法相關——所提出的PI方法經過與CTS中的TD學習和VGB貪婪策略更新的直接聯繫彌合了這種差距(Doya, 2000; Frémaux et al., 2013)。對於其餘RL方法的ADP的調查仍將做爲將來工做或參見咱們的初步結果(Lee and Sutton, 2017)。
1 本文中的"部分無模型"一詞意味着可使用(1)中動態 f 的一些部分知識(即輸入耦合項)來實現該算法。
2 有關沒有平衡狀態的動態的示例,請參見(Haddad and Chellaboina, 2008, 示例2.2)。
1.1 Main Contributions
本文的主要目標是在時域和狀態-動做空間都是連續的且具備ODE模型系統建模環境的狀況下,從經典RL和最優控制的PI想法出發,在通用RL框架中創建PI理論。做爲結果,一系列PI方法被提出,從理論上支持CTS中的現有RL方法:TD學習和VGB貪婪策略更新。咱們的主要貢獻概述以下。
咱們還提供了倒立擺模型的仿真結果,並提供了基於模型的和部分無模型的實現,以支持該理論,並在可接受的(但不必定穩定)初始策略下(與"bang-bang控制"和"帶有簡單二值獎勵的RL"有強烈的聯繫)進一步研究了所提出的方法,這二者都超出了咱們的理論範圍。在此,本文中的RL問題是自由穩定的(在最小假設下定義明確),所以(初始)可接納策略在理論和提出的PI解決方法中不必定是穩定的。
1.2 Organizations
本文的組織以下。在§2中,咱們制定了CTS中的通用RL問題以及與BE,策略改進和HJBE有關的數學背景,符號和陳述。在§3中,咱們介紹並討論了兩種主要的PI方法(即DPI和IPI)及其變體,它們與CTS中的現有RL方法緊密相關。咱們在§4中展現了所提出的PI方法的基本屬性:可允許性,BE解決方案的惟一性,單調改進,收斂性以及HJBE解決方案的最優性。經過如下案例研究,對§4中的這些屬性以及§2和4中的假設進行了簡化,改進和放鬆:1)凹Hamiltonian公式(第5.1節);2)有限VF/獎勵(第5.2節)的折扣RL;3)局部Lipschitzness的RL問題(第5.3節);4)非線性最優控制(§5.4)。在§6中,咱們討論並提供了主要PI方法的仿真結果。最後,結論在§7中得出。
咱們單獨提供附錄(請參閱下面的第19頁及其後部分),其中包含符號和術語(§A)的摘要,相關工做和重點(§B),有關理論和實現的細節(§§C–E和H),沒法控制的示例(§F),其餘案例研究(§G)和全部證據(§I)。在整篇論文中,任何以上述字母開頭的部分都將在附錄中指明一個部分。
1.3 Notations and Terminologies
如下注釋和術語將在整篇文章中使用(有關注釋和術語的完整列表,包括未在下面列出的,請參閱§A)。在任何陳述中,iff 和 s.t. 分別表明"當且僅當"和"使得 ... 知足 ... "。表示根據定義正確的等式關係。
2 Preliminaries
3 若是初始時間t0不爲零,則繼續進行時間變量t' = t - t0,該變量在初始時間t = t0時知足t' = 0。
2.1 RL problem in Continuous Time and Space
2.2 Bellman Equations with Boundary Condition
2.3 Policy Improvement
2.4 Hamilton-Jacobi-Bellman Equation (HJBE)
3 Policy Iterations
如今,咱們準備陳述兩個主要的PI方案,即DPI和IPI。在此,前者是基於模型的方法,然後者是部分無模型的PI。此後還將討論其離散化的簡化版本(部分無模型)。在§6以前,咱們以理想的方式介紹和討論這些PI方案,而無需引入(i) 任何函數近似,例如神經網絡,以及(ii) 狀態空間中的任何離散化。6
6 當咱們實現任何一個PI方案時,顯然都須要這兩個方案(線性二次調節(LQR)狀況除外),由於VF的結構已被遮蓋,而且沒法對連續狀態空間中(不可計數)無限數量的點執行策略評估和改進 (有關實現示例,另請參見§6,詳細信息參見§H)。
3.1 Differential Policy Iteration (DPI)
咱們的第一個PI,稱爲差分策略迭代(DPI),是一種基於模型的PI方案,從最優控制擴展到RL框架(例如,參見Leake and Liu, 1967; Beard et al., 1997; Abu-Khalaf and Lewis, 2005)。算法1描述了DPI的整個過程——它從初始的可接受策略π0(第1行)開始,並執行策略評估和改進,直到vi和/或πi收斂(第2-5行)。在策略評估(第3行)中,智能體求解差分BE (19)以得到最近策略πi-1的VF 。而後,將vi用於策略改進(第4行),以便經過最大化(20)中的關聯Hamiltonian函數來得到下一個策略πi。在此,若是vi = v*,則根據(17)和(20),πi = π*。
基本上,DPI是基於模型的(請參見h的定義(5)),而且不依賴於任何狀態軌跡數據。另外一方面,其策略評估與CTS中的TD學習方法緊密相關(Doya, 2000; Frémaux et al., 2013)。要看到這一點,請注意關於(Xt, Ut),(19)能夠用表示(對於全部x ∈ X和t ∈ T),其中 t 表示TD偏差,能夠被定義爲:
對於任何C1函數v:X → R。Frémaux et al. (2013)使用SNN將δt(v)用做無模型actor-critic的TD偏差,並近似v以及δt(v)的模型依賴部分δt(v)。δt(v)也是CTS的TD(0)中的TD偏差(Doya, 2000),其中近似爲反向時間中的
(對於在時間間隔(0, α-1)中選擇的足夠小的時間步驟
);在這種反向時間近似下,δt(v)能夠相似於離散時間的TD偏差的形式表示爲:
對於和
。這裏,若是是γ,則折扣因子
屬於(0, 1),這要歸功於
,而且只要γ = 1,
。總之,DPI的策略評估解決了差分BE (19),這理想化了CTS中現有的TD學習方法(Doya, 2000; Frémaux et al., 2013)。
3.2 Integral Policy Iteration (IPI)
算法2描述了第二個PI,即積分策略迭代(IPI),它與DPI的區別在於,用於策略評估和改進的(19)和(20)分別由(22)和(23)代替。除了在主循環以前初始化時間視野η > 0 (第1行)外,其餘步驟與DPI相同。
在策略評估(第3行)中,對於給定的固定視野η > 0,IPI求解積分BE (22),而無需使用系統(1)的動態 f 的顯式知識——在(22)中沒有 f 的顯式項,而且對於動態 f 的信息被第 i 次迭代在πi-1下針對多個初始狀態X0 ∈ X生成的狀態軌跡數據{Xt:0 ≤ t ≤ η}隱式捕獲。根據定理2.5,對於固定的η > 0求解積分BE (22)及其DPI中的差分形式(19)是等效的(只要vi知足§4中的邊界條件(28))。
在策略改進(第4行)中,咱們考慮動態 f 的分解(24):
其中(被稱爲漂移動態)與動做u獨立並假定爲未知,而且
是先驗已知的相應輸入-耦合動態;7 假設fd和fc都是連續的。因爲
項對關於u的最大化無貢獻,所以能夠在分解(24)下將策略改進(14)重寫爲:
經過它能夠直接得到算法2的策略改進(第4行)。請注意,算法2和(25)中的策略改進(23)是部分無模型的——最大值不取決於未知的漂移動態fd。
IPI的策略評估/改進分別是徹底無模型/部分無模型的。所以,算法2的整個過程是部分無模型的,即,即便徹底不知道漂移動態fd也能夠作到。除了這種部分無模型的屬性外,IPI中的視野η > 0能夠是任何值——能夠大也能夠小——只要在實踐中近似時累積獎勵沒有明顯的偏差便可。從這個意義上講,時間視野η與離散時間的n步TD預測中的數字n類似(Sutton and Barto, 2018)。實際上,若是對於某些
且足夠小的
,則經過前向時間近似
,其中:
且,則積分BE (22)表示爲:
其中。咱們還能夠應用
的高階近似——例如,在梯形近似下,咱們有:
它使用終點獎勵Rη,而(26)不使用。注意,對於這樣的多步TD預測,TD偏差(21)不容易泛化。另外一方面,當n = 1時,n步BE (26)變爲:
這相似於離散時間的BE (Sutton and Barto, 2018),CTS中的TD偏差(21)的。
7 選擇fd和fc的方法有無數種;一個典型的選擇是fd(x) = f(x, 0)和fc(x, u) = f(x, u) - fd(x)。
3.3 Variants with Time Discretizations
4 Fundamental Properties of Policy Iterations
本節顯示了DPI和IPI的基本屬性——可接受性,每種策略評估解決方案的惟一性,單調改進和收斂(朝着HJB解決方案)。咱們還討論了HJB解決方案的最優性(§§4.2和E.1)基於PI的收斂性。在任何數學陳述中,<vi>和<πi>表示BE和策略的解決方案的序列,均由算法1或2在如下條件下生成:
4.1 Convergence towards v* and π*
4.2 Optimality of the HJB Solution: Sufficient Conditions
5 Case Studies
憑藉與RL的緊密聯繫以及CTS中的最優控制,本節研究§2中提出的通用RL問題的特殊狀況。在這些案例研究中,如表1所示,對提出的PI方法和理論進行了簡化和改進。表1中的空白用"Assumed"填充,在簡化的策略改進部分中用"No"填充。本節還介紹了最優控制中的穩定性理論。在每種狀況下,對HJB解的最優性進行了研究,並在§E.2中進行了總結;§G中提供了更多案例研究。
5.1 Concave Hamiltonian Formulations
在此,咱們研究獎勵函數 r 的特殊設置,使函數變得嚴格凹且爲C1(在非仿射動態的狀況下通過一些輸入變換後)。在這些狀況下,策略改進最大化(13),(14)和(17)成爲凸優化,其解存在並以封閉形式給出,咱們將看到這極大地簡化了策略改進自己並加強了收斂性。儘管咱們專一於某些動態類別(輸入仿射動態而後是一類非仿射動態),但該想法能夠擴展到形式爲(1)的通常非線性系統(有關此類擴展,請參見第G.1節)。
5.1.1 Case I: Input-affine Dynamics
5.1.2 Case II: a Class of Non-affine Dynamics
5.2 Discounted RL with Bounded VF
5.3 RL with Local Lipschitzness
5.4 Nonlinear Optimal Control
6 Inverted-Pendulum Simulation Examples
10 github.com/JaeyoungLee-UoA/PIs-for-RL-Problems-in-CTS/
6.1 Case 1: Concave Hamiltonian with Bounded Reward
6.2 Case 2: Optimal Control
6.3 Case 3: Bang-bang Control
6.4 Case 4: Bang-bang Control with Binary Reward
6.5 Discussions
咱們已經在上述四種狀況下仿真了DPI和IPI(算法3)的變體。它們中的一些在第一次迭代時就當即達到了學習目標,而且在全部仿真中,所提出的方法最終都可以達到目標。另外一方面,PI的實現存在如下問題。
全部這些算法和實際問題均不在本文討論範圍以內,而且仍做爲將來的工做。
7 Conclusions
本文提出了基本的PI方案DPI(基於模型)和IPI(部分無模型)來解決CTS中制定的通用RL問題,並證實了它們的基本數學屬性:可允許性,BE解的惟一性,單調改進,收斂和HJBE解決方案的最優性。經過將所提出的方法做爲理想的PI,與CTS中的RL方法(TD學習和VGB貪婪策略更新)創建牢固的聯繫。案例研究簡化並改進所提出的PI方法及其理論,並與RL緊密聯繫,並在CTS中實現最優控制。使用基於模型和部分無模型的實現方式進行了數值仿真,以支持該理論,並在可接受但不穩定的初始策略下進一步研究所提出的PI方法。與基於穩定性的框架中現有的PI方法不一樣,運行所提出的方法不必定須要初始穩定策略。咱們相信,這項工做爲(i) 最優控制中的PI方法和(ii) RL方法提供了理論背景,直覺和改進,這些方法將在未來開發並在CTS領域中進行開發。
Abstract
這份補充文件提供了更多的研究內容,以及Lee and Sutton (2020)提出的全部內容細節,以下所列。粗略地說,咱們以相同的縮寫,術語和符號表示相關的工做,理論,算法和實現的細節,其餘案例研究以及全部證實。全部不包含字母的等式,部分,定理,引理等的數量均指主要論文中的數量(Lee and Sutton, 2020),而任何以字母開頭的數字均與本文附錄中的相對應。
A Notations and Terminologies
咱們提供了主要論文和附錄中使用的符號和術語的完整列表。在任何陳述中,iff 和 s.t. 分別表明"當且僅當"和"使得 ... 知足 ... "。表示根據定義正確的等式關係。
A.1 Abbreviations
A.2 Sets, Vectors, and Matrices
A.3 Euclidean Topology
A.4 Functions, Sequences, and Convergence
A.5 Reinforcement Learning
A.6 Policy Iteration
A.7 Optimal Control and LQRs
B Highlights and Related Works
首先,咱們簡要回顧一下RL和最優控制領域的相關工做。咱們還將重點介紹(i) 由Lee and Sutton (2020)提出的PI方法和基礎理論的主要方面,以及(ii) 本文的附錄。
DPI & IPI. 咱們工做中的兩個主要PI方法是DPI,其策略評估與差分BE相關,而IPI與積分BE相關。前者受到最優控制中基於模型的PI方法的啓發(例如Rekasius, 1964; Leake and Liu, 1967; Saridis and Lee, 1979; Beard et al., 1997; Abu-Khalaf and Lewis, 2005; Bian et al., 2014),並與CTS中的TD(0)有直接聯繫(Doya, 2000; Frémaux et al., 2013)——參見§3.1。關於後者,積分BE最先是由Baird III (1993)在RL領域引入的,而後在最優控制界中受到關注,從而將一系列IPI方法應用於一類輸入仿射動態以實現最優規則(Vrabie and Lewis, 2009; Lee et al., 2015),魯棒控制(Wang, Li, Liu, and Mu, 2016)和(折扣)LQ跟蹤控制(Modares and Lewis, 2014; Zhu, Modares, Peen, Lewis, and Yue, 2015; Modares et al., 2016),對異策IPI方法進行了許多擴展(例如,Bian et al., 2014; Lee et al., 2015; Wang et al., 2016; Modares et al., 2016)。在咱們的工做中(Lee and Sutton, 2020),
Case Studies.
有關RL和最優控制的§5.一、5.2和5.4中案例研究的仿真示例,另請參見§6。
Admissibility & Asymptotic Stability. 從理論上講,因爲咱們考慮了無穩定性的RL框架(在§2中的最小假設下),所以咱們將漸進穩定性排除在可允許性策略的定義以外。在此,最優控制的可允許性概念已被定義爲具備漸近穩定性(例如Beard et al., 1997; Abu-Khalaf and Lewis, 2005; Vrabie and Lewis, 2009; Modares and Lewis, 2014; Bian et al., 2014; Lee et al., 2015,僅舉幾例),這項工做是第一個在沒有漸近穩定性的狀況下定義CTS的可允許性的工做。相反,在通常的最優控制問題中,咱們還代表,當γ = 1時,根據咱們的定義,可允許性表示漸近穩定性(若是關聯的VF爲C1)——參見定理5.13和§5.4中的備註5.14和5.20。這意味着即便在最優控制下,漸近穩定性也能夠從可允許性的定義中刪除。在§5.4中,在比Lyapunov的全局漸近穩定性標準弱的條件下(例如,見定理5.17),還研究了折扣最優控制的可允許性。
(Mode of) Convergence. 咱們經過如下三種方式描述了PI方法向最優解的收斂性。 這三種模式提供了不一樣的收斂條件並相互補償。
LQR. 在§G.3中,咱們討論了DPI和IPI應用於一類LQR任務(Lancaster and Rodman, 1995, 第16章),其中存在狀態和控制的雙線性成本項。 在這裏,DPI屬於現有的通常矩陣形式的PI的特殊狀況(Arnold III, 1984; Mehrmann, 1991),可是這項研究對LQR的許多現有PI方法進行了泛化(例如,Kleinman, 1968; Vrabie et al., 2009; Lee, Park, and Choi, 2014),並考慮了放寬對通常矩陣形式PI的正定矩陣假設(Mehrmann, 1991, 定理11.3)。
C More on the Bellman Equations with the Boundary Condition
D Existence and Uniqueness of the Maximal Function u*
E Theory of Optimality
E.1 Sufficient Conditions for Optimality
E.2 Case Studies of Optimality
F A Pathological Example (Kiumarsi et al., 2016)
G Additional Case Studies
本附錄提供了與(i) 第5節中的案例研究以及(ii) 主要文章(Lee and Sutton, 2020)和§E中創建的理論(有力的聯繫)的額外案例研究。
G.1 General Concave Hamiltonian Formulation
G.2 Discounted RL with Bounded State Trajectories
G.3 Linear Quadratic Regulations (LQRs)
H Implementation Details
本附錄提供了在§6中實驗過的PI方法(即算法3)的實現細節。
H.1 Structure of the VF Approximator Vi
H.2 Least-Squares Solution of Policy Evaluation
H.3 Reward Function and Policy Improvement Update Rule
I Proofs
在本附錄中,咱們提供了主要工做中所陳述的定理,引理,命題和推論的全部證實(Lee and Sutton, 2020)。爲了證實局部一致收斂的性質,如下引理是必要的。
I.1 Proofs in §2 Preliminaries
I.2 Proofs in §4 Fundamental Properties of PIs
I.3 Proofs in §5 Case Studies
I.4 Proofs of Some Facts in §G.3 LQRs