強化學習筆記之gradient ascent(二)

一般而言,Actor的策略就是gradient ascent Actor和Environment、Reward的關係如下: 在一個回合episode中,這些state和action組成一條軌跡: Trajectory   τ = { s 1 , a 1 , s 2 , a 2 , … , s T , a T } \textbf {Trajectory} \space \tau = \lbrace
相關文章
相關標籤/搜索