拋開數學公式理解DDPG

時間 2021-07-13

原文原文鏈接

由於新冠疫情被關在家中,無事可做.就決定用這段時間研究一下連續控制的深度學習算法DDPG. 網上看了很多帖子,大多上來就列公式.對於我這種數學基礎差的同學,很不友好.於是打算丟開數學公式討論一下DDPG的核心思想. 應用場景 DDPG用於連續控制系統,比如,OpenAI的MountainCarContinuous. 在遊戲中玩家可以對小車提供一個向左向右或大或小的力,最終把小車推到最右端的小旗處.