policy gradientss 強化學習

policy gradient 是一種基於  整個episode更新的算法,它直接對policy進行更新,能夠適應連續的動作空間 算法僞代碼   log(Policy(s,a))是更新的幅度,Vt是表示這個更新是好還是壞
相關文章
相關標籤/搜索