[強化學習]易混知識勘誤_from李宏毅P4——Actor-Critic/A3C

時間 2021-01-21

原文原文鏈接

本文以這篇文章爲綱，以問答的形式對其進行補足。 1.policy gradient後面爲什麼要用log 2.policy gradient括號中的第一項那一大坨是個啥它其實很單純，就是狀態s選擇t後直到episode結束所得的但步reward的加權和。這個用表示 3.爲什麼要對G採樣？？首先G是一個RV（隨機變量），雖然它有固定的分佈概率，但是它的取值是隨機的，這裏是要估計它的期望，也就是