Actr-Critc

時間 2021-07-13

原文原文鏈接

一、介紹 Actor-Critic 算法有兩部分組成：actor 和 critic。其中 action 就是Policy Gradient 算法，critic 是Q-learning。所以實際上 actor-critic算法是Q-learning算法和policy gradient算法的結合。 Actor Critic 算法能在有限維的輸入和有限維的輸出中起到比較好的效果。 Actor 角色起到的