2020李宏毅學習筆記——65 RL Advanced Version 1.Policy Gradient

Policy Gradient 術語和基本思想 基本組成: actor (即policy gradient要學習的對象, 是我們可以控制的部分) 環境 environment (給定的,無法控制) 回報函數 reward function (無法控制) Policy of actor π: 如下圖所示,Policy 可以理解爲一個包含參數 θ \thetaθ的神經網絡,該網絡將觀察到的變量作爲模型
相關文章
相關標籤/搜索