基於策略搜索的強化學習方法

基於策略搜索的強化學習方法 1.policy gridient 1.1 基礎推導 1.2 Tip Tip1: add a baseline(增加基線) 因爲原來的梯度,一直都會取正數,不是特別合適,但是這樣其實無可厚非,因爲可以用過大小進行區分,但我們這裏更好的辦法是給他加入一個基線,讓其有正有負。 Tip2:Assign Suitable Credit 因爲如果對於每個執行的動作,都使用同樣的全
相關文章
相關標籤/搜索