【李宏毅深度強化學習筆記】1、深度強化學習算法 策略梯度方法(Policy Gradient)

回顧   在強化學習中,主要有三個部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制的。唯一能調整的是actor的policy,使actor能獲得最大的reward。 policy是actor中起決策作用的一個東西,決定了actor的行爲。就是說輸入什麼狀態(state)要輸出什麼動
相關文章
相關標籤/搜索