馬爾科夫決策過程之Bellman Equation(貝爾曼方程)

本文總結一下馬爾科夫決策過程之Bellman Equation(貝爾曼方程)   1 Bellman Equation for MRPs 首先我們從value function的角度進行理解,value function可以分爲兩部分: 見下面的推導公式:   我們直接從第一行到最後一行是比較好理解的,因爲從狀態s到狀態s+1,是不確定,還是之前的例子。   比如擲骰子游戲,當前點數是1的情況下,
相關文章
相關標籤/搜索