Deep Reinforcement Learning —— DDPG原理和算法

背景描述 概括來說,RL要解決的問題是:讓agent學習在一個環境中的如何行爲動作(act), 從而獲得最大的獎勵值總和(total reward)。 這個獎勵值一般與agent定義的任務目標關聯。 agent需要的主要學習內容:第一是行爲策略(action policy), 第二是規劃(planning)。 其中,行爲策略的學習目標是最優策略, 也就是使用這樣的策略,可以讓agent在特定環境中
相關文章
相關標籤/搜索