深度強化學習(policy gradient) task03-1

上次提到了在深度強化中的幾個概念,現在來看一看他們的關係: 環境——>狀態1——>行爲1——>環境——>狀態2——>行爲2等等 以一個遊戲的強化學習過程爲例: 所有狀態和行爲組成的序列被稱爲trajectory(軌跡) 某種軌跡出現的概率爲 獎勵R: 下面要求R的梯度 policy gradient: 迭代公式爲 具體的步驟是 計算時,需要最小化 因此,在tf或torch中,求上式的梯度並乘以權重
相關文章
相關標籤/搜索