《強化學習》第三講:動態規劃尋找最優策略

本講着重講解了利用動態規劃來進行強化學習,具體是進行強化學習中的「規劃」,也就是在已知模型的基礎上判斷一個策略的價值函數,並在此基礎上尋找到最優的策略和最優價值函數,或者直接尋找最優策略和最優價值函數(即我們所說的策略迭代和價值迭代)。本講是整個強化學習課程核心內容的引子,側重點爲策略迭代和值迭代方法的理解和實現。 簡介 Introduction 動態規劃算法是解決複雜問題的一個方法,算法通過把復
相關文章
相關標籤/搜索