強化學習之DDPG

時間 2021-01-10

標籤機器學習強化學習简体版

原文原文鏈接

1.爲什麼需要DDPG？強化學習的概念在這不再贅述，是一個agent在與環境不斷交互，採用action得到reward，爲了達到最大的累計獎勵值的過程。所以強化學習的核心在於學習根據當前agent的state採用action的策略。大家都很熟悉的算法有Q-learning(Deep Q Learning)、SARSA，但是這兩種方法針對的動作空間都是離散的，即有限的。從Q-learning到D

>>阅读原文<<