深度加強學習David Silver(三)——動態規劃的planning

本節課主要介紹:web 策略評估(Policy Evaluation) 策略迭代(Policy Iteration) 價值迭代(Value Iteration) 動態規劃(DP, Dynamic Programming)擴展 壓縮映射 動態規劃是一種用來解決複雜問題的方法,它把問題打碎成多個子問題,逐一解決,而後再合併起來。這些複雜問題一般具有兩個性質: 1. 最優解可以被分解爲子問題 2. 這些
相關文章
相關標籤/搜索