《強化學習》第三講：動態規劃尋找最優策略

時間 2021-07-14

原文原文鏈接

本講着重講解了利用動態規劃來進行強化學習，具體是進行強化學習中的「規劃」，也就是在已知模型的基礎上判斷一個策略的價值函數，並在此基礎上尋找到最優的策略和最優價值函數，或者直接尋找最優策略和最優價值函數（即我們所說的策略迭代和價值迭代）。本講是整個強化學習課程核心內容的引子，側重點爲策略迭代和值迭代方法的理解和實現。簡介 Introduction 動態規劃算法是解決複雜問題的一個方法，算法通過把復

>>阅读原文<<