深度強化學習——第四章策略梯度

深度強化學習——第四章策略梯度 1. Components 1.1 可控部分——Policy 1.2 軌跡序列——Trajectory 1. Components 在 reinforcement learning 中有 3 個components: 1 actor 1 environment 1 reward function。 下面以機器玩 video game 爲例,介紹各component
相關文章
相關標籤/搜索