貝爾曼方程

時間 2021-01-06

原文原文鏈接

網格世界示例如下：貝爾曼方程在這個網格世界示例中，一旦智能體選擇一個動作，它始終沿着所選方向移動（而一般 MDP 則不同，智能體並非始終能夠完全控制下個狀態將是什麼）可以確切地預測獎勵（而一般 MDP 則不同，獎勵是從概率分佈中隨機抽取的）。在這個簡單示例中，我們發現任何狀態的值可以計算爲即時獎勵和下個狀態（折扣）值的和。 Alexis 提到，對於一般 MDP，我們需要使用期望值，因爲通

>>阅读原文<<