機器學習（三十六）——Integrating Learning and Planning（2）

時間 2021-01-02

原文原文鏈接

Integrating Learning and Planning（續） Table Lookup Model 查表模型適用於MDP的P，R都爲已知的情況。我們通過visit得到各狀態行爲的轉移概率和獎勵，把這些數據存入表中，使用時直接檢索。狀態轉移概率和獎勵計算方法如下： P ^ s , s ′ a = 1 N ( s , a ) ∑ t = 1 T 1 ( S t , A t , S t +

>>阅读原文<<