2017 Fall CS294 Lecture 7: Value Function Methods

回憶 Aπ(st,at) A π ( s t , a t ) 的含義,如果使用下述的 π′(at|st) π ′ ( a t | s t ) 來取代 at∼π(at|st) a t ∼ π ( a t | s t ) ,那麼由於 π′ π ′ 是取了max的,那麼至少不會比 π π 要差。那麼算法的流程就如右小角的那個圖一樣,不斷的用 π′ π ′ 來更新 π π ,然後用 π π 生成sampl
相關文章
相關標籤/搜索