強化學習之貝爾曼方程 8

在上一次的狀態價值函數圖中,對於每一個方格我們不比從頭開始計算每一個值,如下圖 如果我們想知道某一狀態的值可以用接下來的一個狀態的折扣值(圖中爲1)+ 立刻的回報。 這個就是貝爾曼預期方程 代表着我們可以將馬爾科夫決策過程任何狀態的值表示爲,即時獎勵和下個狀態的折扣值。 如果幫到你
相關文章
相關標籤/搜索