馬爾科夫決策過程之Bellman Equation（貝爾曼方程）

時間 2021-01-02

原文原文鏈接

本文總結一下馬爾科夫決策過程之Bellman Equation（貝爾曼方程） 1 Bellman Equation for MRPs 首先我們從value function的角度進行理解，value function可以分爲兩部分：見下面的推導公式：我們直接從第一行到最後一行是比較好理解的，因爲從狀態s到狀態s+1,是不確定，還是之前的例子。比如擲骰子游戲，當前點數是1的情況下，

>>阅读原文<<