強化學習-An introduction之動態規劃（DP）個人筆記

時間 2021-01-08

標籤強化學習動態規劃简体版

原文原文鏈接

Chapter 4 DP 上一章的 two forms of the Bellman optimality equation： or 1 Policy Evaluation update rule: vk v k 收斂到 vπ v π . 常規的update使用兩個數組來存放old和new values，這是two-array version；還有一種是使用一個數組，直接在原有的array上更新

>>阅读原文<<