強化學習之貝爾曼方程 8

時間 2021-01-06

原文原文鏈接

在上一次的狀態價值函數圖中，對於每一個方格我們不比從頭開始計算每一個值，如下圖如果我們想知道某一狀態的值可以用接下來的一個狀態的折扣值（圖中爲1）+ 立刻的回報。這個就是貝爾曼預期方程代表着我們可以將馬爾科夫決策過程任何狀態的值表示爲，即時獎勵和下個狀態的折扣值。如果幫到你

>>阅读原文<<

相關文章

相關標籤/搜索

強化學習篇

化學方程式

費曼學習方法

Thymeleaf 教程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<