2017 Fall CS294 Lecture 6: Actor-critic introduction

很奇怪,沒有看到Lecture 5的視頻,不過Lecture 5貌似是回顧NN,也沒關係,所以就跳過直接從Lecture 6開始了! 我們重現一下actor-critic的誕生過程: 上圖中,其實PPT中是有動畫的,但是上面無法顯示出來,實際的推演過程是: Qπ(st,at)=r(st,at)+Est+1∼p(st+1|st,at)[Vπ(st+1)] Q π ( s t , a t ) = r
相關文章
相關標籤/搜索