李宏毅強化學習筆記【3.Actor-Critic】

複習策略梯度policy gradient 計算在某一個state,採取action a的概率。到遊戲結束爲止,獲得多少reward。 G很不穩定。除非sample很多。   複習Q-learning 用期望代替sample,value-based 第一種方法算V,用π和環境做互動,看到s之後,累計reward期望值是多少。 第二種方法,用π,當再s採取a,累計reward是多少。 TD比較穩,M
相關文章
相關標籤/搜索