強化學習之 Policy Gradient策略梯度

時間 2021-01-02

標籤策略梯度简体版

原文原文鏈接

Policy Gradient 是一種強化學習的優化方法 Policy gradient 是 RL 中另外一個大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受環境信息 (observation), 不同的是他要輸出不是 action 的 value, 而是具體的那一個 action, 這樣 policy gradient 就跳過了 valu

>>阅读原文<<