強化學習（Policy Gradient，Actor Critic）

時間 2021-01-02

標籤強化學習策略梯度 Actor-Critix 简体版

原文原文鏈接

強化學習是通過獎懲的反饋來不斷學習的，在Q-Learning，Sarsa和DQN中，都是學習到了價值函數或對價值函數的近似，然後根據價值來選擇策略（如選擇最大價值的動作），所以這一類也被稱爲Value Based Model。但是這種處理方式有幾處瓶頸：處理連續動作效果差。對於高維度或連續狀態空間，使用Value Based通過得到價值函數再製定策略，需要比較所有action的價值大小，此時選出

>>阅读原文<<