機器學習(三十六)——Integrating Learning and Planning(2)

Integrating Learning and Planning(續) Table Lookup Model 查表模型適用於MDP的P,R都爲已知的情況。我們通過visit得到各狀態行爲的轉移概率和獎勵,把這些數據存入表中,使用時直接檢索。狀態轉移概率和獎勵計算方法如下: P ^ s , s ′ a = 1 N ( s , a ) ∑ t = 1 T 1 ( S t , A t , S t +
相關文章
相關標籤/搜索