強化學習之DDPG

1.爲什麼需要DDPG? 強化學習的概念在這不再贅述,是一個agent在與環境不斷交互,採用action得到reward,爲了達到最大的累計獎勵值的過程。所以強化學習的核心在於學習根據當前agent的state採用action的策略。 大家都很熟悉的算法有Q-learning(Deep Q Learning)、SARSA,但是這兩種方法針對的動作空間都是離散的,即有限的。從Q-learning到D
相關文章
相關標籤/搜索