基於策略搜索的強化學習方法

時間 2021-01-04

標籤強化學習简体版

原文原文鏈接

基於策略搜索的強化學習方法 1.policy gridient 1.1 基礎推導 1.2 Tip Tip1： add a baseline（增加基線）因爲原來的梯度，一直都會取正數，不是特別合適，但是這樣其實無可厚非，因爲可以用過大小進行區分，但我們這裏更好的辦法是給他加入一個基線，讓其有正有負。 Tip2：Assign Suitable Credit 因爲如果對於每個執行的動作，都使用同樣的全

>>阅读原文<<