機器學習：李宏毅強化學習筆記（一）Proximal Policy Optimization (PPO)

時間 2021-01-02

標籤機器學習简体版

原文原文鏈接

http://www.javashuo.com/article/p-zdrtqfuj-ec.html Policy Gradient 術語和基本思想基本組成: actor (即policy gradient要學習的對象, 是我們可以控制的部分) 環境 environment (給定的，無法控制) 回報函數 reward function (無法控制) Policy of actor π\piπ:

>>阅读原文<<