強化學習 之 Policy Gradient策略梯度

Policy Gradient 是一種強化學習的優化方法   Policy gradient 是 RL 中另外一個大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受環境信息 (observation), 不同的是他要輸出不是 action 的 value, 而是具體的那一個 action, 這樣 policy gradient 就跳過了 valu
相關文章
相關標籤/搜索