深度強化學習（policy gradient） task03-1

時間 2021-03-21

原文原文鏈接

上次提到了在深度強化中的幾個概念，現在來看一看他們的關係：環境——>狀態1——>行爲1——>環境——>狀態2——>行爲2等等以一個遊戲的強化學習過程爲例：所有狀態和行爲組成的序列被稱爲trajectory（軌跡）某種軌跡出現的概率爲獎勵R：下面要求R的梯度 policy gradient：迭代公式爲具體的步驟是計算時，需要最小化因此，在tf或torch中，求上式的梯度並乘以權重

>>阅读原文<<