David silver強化學習課程第三課 動態規劃

第三課 動態規劃 本章主要講了利用動態規劃解決MDP的預測和控制兩個問題。策略評估用來解決預測問題,策略迭代和值迭代用來解決控制問題,這都是建立在已知完整信息的MDP問題當中。 1 動態規劃簡介 動態:指的是該問題的時間序貫部分 規劃:指的是去優化一個策略 那麼哪些問題可以用動態規劃求解呢?需要滿足兩個特性: 最優子結構:求解問題可以分解爲求解若干個子問題,子問題最優解構成了問題的最優解 重疊子問
相關文章
相關標籤/搜索