強化學習策略梯度方法

時間 2021-01-06

標籤機器學習简体版

原文原文鏈接

一、策略估計方法行爲控制到目前爲止，幾乎所有的方法都是基於動作-價值函數的方法，它們都是先學習動作價值函數，然後再根據估計的動作價值函數選擇動作，如果沒有動作價值函數的估計，那麼策略也將不再存在。下面會講直接學習參數化的策略，這裏給出一個例子：如果在上述遊戲中，遊戲者在灰色格子中難以分辨自己的位置，那麼如果基於價值函數的方法會得到如下的策略：在灰色的格子上要麼都是左，要麼都是右，這很顯然

>>阅读原文<<