Reinforcement Learning - An Introduction強化學習讀書筆記 Ch8.4-Ch8.11

8.4 優先遍歷 模擬轉移中,均勻採樣通常不是最好的,如果模擬轉移和價值函數更新集中在某些特定的二元組中,能更加高效地進行學習。在進行價值更新的時候,可以從使得價值法身變化的任何狀態進行反向計算,同時更新前導狀態的價值,稱爲反向聚焦。 而在進行反向推演傳播的時候,價值改變更大的狀態的前導狀態也更可能改變很大,且不同的前導狀態應該被賦予不同的權值,從而引發優先級遍歷的思想,維護一個優先隊列,其按照價
相關文章
相關標籤/搜索