強化學習-An introduction之 動態規劃(DP) 個人筆記

Chapter 4 DP 上一章的 two forms of the Bellman optimality equation: or 1 Policy Evaluation update rule: vk v k 收斂到 vπ v π . 常規的update使用兩個數組來存放old和new values,這是two-array version; 還有一種是使用一個數組,直接在原有的array上更新
相關文章
相關標籤/搜索