Reinforcement Learning（三）：Policy-Based

時間 2020-12-20

標籤強化學習简体版

原文原文鏈接

Policy Function Can we directly learn a policy function？ Policy Network State-Value Function Approximation Policy-Based Reinforcement Learning Policy Gradient 得到兩種形式的策略梯度：這個方法不適合連續的情況。這種方法的好處是也適用於離散

>>阅读原文<<