2020李宏毅學習筆記——65 RL Advanced Version 1.Policy Gradient

時間 2021-01-02

原文原文鏈接

Policy Gradient 術語和基本思想基本組成: actor (即policy gradient要學習的對象, 是我們可以控制的部分) 環境 environment (給定的，無法控制) 回報函數 reward function (無法控制) Policy of actor π: 如下圖所示，Policy 可以理解爲一個包含參數 θ \thetaθ的神經網絡，該網絡將觀察到的變量作爲模型

>>阅读原文<<