Lee Hung-yi強化學習 | (1) Policy Gradient

時間 2021-01-02

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件 1. 回顧在強化學習中，主要有三個部件(components)：actor、environment、reward function。其中env和reward function是事先就定好的，你不能控制。唯一能調整的是actor的policy，使actor能獲得最大的reward。 p

>>阅读原文<<