Actor Critic學習筆記

什麼是Actor-Critic Actor-Critic 的 Actor 是 Policy Gradients,因爲他直接根據概率進行選擇所以能夠很容易選出當前最優解,而Q-learning存在 ϵ − g r e e d y \epsilon-greedy ϵ−greedy選擇,不能及時選擇出當前最優解.但是 Policy Gradients 容易陷入局部最優解,而且PG是回合更新,降低了學習效
相關文章
相關標籤/搜索