Lee Hung-yi強化學習 | (1) Policy Gradient

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件 1. 回顧 在強化學習中,主要有三個部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制。唯一能調整的是actor的policy,使actor能獲得最大的reward。 p
相關文章
相關標籤/搜索