Reinforcement Learning - An Introduction強化學習讀書筆記 Ch8.4-Ch8.11

時間 2021-01-13

標籤強化學習入門強化學習简体版

原文原文鏈接

8.4 優先遍歷模擬轉移中，均勻採樣通常不是最好的，如果模擬轉移和價值函數更新集中在某些特定的二元組中，能更加高效地進行學習。在進行價值更新的時候，可以從使得價值法身變化的任何狀態進行反向計算，同時更新前導狀態的價值，稱爲反向聚焦。而在進行反向推演傳播的時候，價值改變更大的狀態的前導狀態也更可能改變很大，且不同的前導狀態應該被賦予不同的權值，從而引發優先級遍歷的思想，維護一個優先隊列，其按照價

>>阅读原文<<