貝爾曼方程

網格世界示例如下: 貝爾曼方程 在這個網格世界示例中,一旦智能體選擇一個動作, 它始終沿着所選方向移動(而一般 MDP 則不同,智能體並非始終能夠完全控制下個狀態將是什麼) 可以確切地預測獎勵(而一般 MDP 則不同,獎勵是從概率分佈中隨機抽取的)。 在這個簡單示例中,我們發現任何狀態的值可以計算爲即時獎勵和下個狀態(折扣)值的和。 Alexis 提到,對於一般 MDP,我們需要使用期望值,因爲通
相關文章
相關標籤/搜索