[強化學習]易混知識勘誤_from李宏毅P4——Actor-Critic/A3C

  本文以這篇文章爲綱,以問答的形式對其進行補足。 1.policy gradient後面爲什麼要用log 2.policy gradient括號中的第一項那一大坨是個啥 它其實很單純,就是狀態s選擇t後直到episode結束所得的但步reward的加權和。這個用表示 3.爲什麼要對G採樣?? 首先G是一個RV(隨機變量),雖然它有固定的分佈概率,但是它的取值是隨機的,這裏是要估計它的期望,也就是
相關文章
相關標籤/搜索