強化學習-價值迭代

1. 前言 在策略迭代最後我們發現策略迭代的收斂過程比較慢,那我們就會想有沒更好更快的迭代方法,今天我們介紹的價值迭代就是另一種尋找最優策略的解決方案。 2. 動態規劃 價值迭代需要用到動態規劃的思想,那我們簡單的回顧下動態規劃的特點。 最優子結構:是指一個子問題的最優解是可以得到的。對應蛇棋的問題,可以理解爲是「從某個位置出發行走一步能夠獲得的最大獎勵」的問題,由於只走一步,這個問題很容易計算。
相關文章
相關標籤/搜索