強化學習實例11:策略梯度法(Policy Gradient)

本實例基於策略梯度的算法來學習「打乒乓球」遊戲node 首先本實例的定義馬爾可夫決策過程:python 狀態s:每一時刻的遊戲畫面 行動a:右邊綠色拍,向上或向下 策略:狀態爲s下,採起行動a的機率 強化學習的目標是最大化長期回報指望:git 其中爲策略參數算法 定義目標函數J網絡 策略梯度爲app 用Q代替rdom 使用蒙特卡羅法求解函數 使用蒙特卡羅法,方差大。爲了模型的穩定,提出Actor-
相關文章
相關標籤/搜索