機器學習:李宏毅強化學習筆記(一)Proximal Policy Optimization (PPO)

http://www.javashuo.com/article/p-zdrtqfuj-ec.html Policy Gradient 術語和基本思想 基本組成: actor (即policy gradient要學習的對象, 是我們可以控制的部分) 環境 environment (給定的,無法控制) 回報函數 reward function (無法控制) Policy of actor π\piπ:
相關文章
相關標籤/搜索