Actor Critic學習筆記

時間 2021-01-12

原文原文鏈接

什麼是Actor-Critic Actor-Critic 的 Actor 是 Policy Gradients,因爲他直接根據概率進行選擇所以能夠很容易選出當前最優解，而Q-learning存在 ϵ − g r e e d y \epsilon-greedy ϵ−greedy選擇，不能及時選擇出當前最優解.但是 Policy Gradients 容易陷入局部最優解，而且PG是回合更新，降低了學習效

>>阅读原文<<