深度強化學習——第四章策略梯度

時間 2021-03-23

標籤 DeepRL 简体版

原文原文鏈接

深度強化學習——第四章策略梯度 1. Components 1.1 可控部分——Policy 1.2 軌跡序列——Trajectory 1. Components 在 reinforcement learning 中有 3 個components: 1 actor 1 environment 1 reward function。下面以機器玩 video game 爲例，介紹各component

>>阅读原文<<