【李宏毅深度強化學習筆記】1、深度強化學習算法策略梯度方法（Policy Gradient）

時間 2021-01-02

原文原文鏈接

回顧在強化學習中，主要有三個部件(components)：actor、environment、reward function。其中env和reward function是事先就定好的，你不能控制的。唯一能調整的是actor的policy，使actor能獲得最大的reward。 policy是actor中起決策作用的一個東西，決定了actor的行爲。就是說輸入什麼狀態（state）要輸出什麼動

>>阅读原文<<