強化學習 策略梯度方法

一、策略估計方法 行爲控制 到目前爲止,幾乎所有的方法都是基於動作-價值函數的方法,它們都是先學習動作價值函數,然後再根據估計的動作價值函數選擇動作,如果沒有動作價值函數的估計,那麼策略也將不再存在。 下面會講直接學習參數化的策略,這裏給出一個例子: 如果在上述遊戲中,遊戲者在灰色格子中難以分辨自己的位置,那麼如果基於價值函數的方法會得到如下的策略: 在灰色的格子上要麼都是左,要麼都是右,這很顯然
相關文章
相關標籤/搜索