Deep Reinforcement Learning —— DDPG原理和算法

時間 2020-12-24

原文原文鏈接

背景描述概括來說，RL要解決的問題是：讓agent學習在一個環境中的如何行爲動作(act)，從而獲得最大的獎勵值總和(total reward)。這個獎勵值一般與agent定義的任務目標關聯。 agent需要的主要學習內容：第一是行爲策略(action policy)，第二是規劃(planning)。其中，行爲策略的學習目標是最優策略，也就是使用這樣的策略，可以讓agent在特定環境中