拋開數學公式理解DDPG

由於新冠疫情被關在家中,無事可做.就決定用這段時間研究一下連續控制的深度學習算法DDPG. 網上看了很多帖子,大多上來就列公式.對於我這種數學基礎差的同學,很不友好.於是打算丟開數學公式討論一下DDPG的核心思想. 應用場景 DDPG用於連續控制系統,比如,OpenAI的MountainCarContinuous. 在遊戲中玩家可以對小車提供一個向左向右或大或小的力,最終把小車推到最右端的小旗處.
相關文章
相關標籤/搜索