Actor-Critic

Actor-Critic( A 2 C   A 3 C A2C \ A3C A2C A3C) 1、首先要搞清楚什麼是actor-critic算法,它是怎麼來的? Actor-critic算法是一種policy based的on policy的model-free算法。和value based的DQN算法有着本質的不同。policy based算法是將policy參數化 π ( a ∣ s , θ
本站公眾號
   歡迎關注本站公眾號,獲取更多信息