Actr-Critc

一、介紹 Actor-Critic 算法有兩部分組成:actor 和 critic。其中 action 就是Policy Gradient 算法,critic 是Q-learning。所以實際上 actor-critic算法是Q-learning算法和policy gradient算法的結合。 Actor Critic 算法能在有限維的輸入和有限維的輸出中起到比較好的效果。 Actor 角色起到的
本站公眾號
   歡迎關注本站公眾號,獲取更多信息