David silver 強化學習公開課-第三講動態規劃尋找最優策略

時間 2020-12-29

原文原文鏈接

簡介 Introduction 動態規劃算法是解決複雜問題的一個方法，算法通過把複雜問題分解爲子問題，通過求解子問題進而得到整個問題的解。在解決子問題的時候，其結果通常需要存儲起來被用來解決後續複雜問題。當問題具有下列特性時，通常可以考慮使用動態規劃來求解：第一個特性是一個複雜問題的最優解由數個小問題的最優解構成，可以通過尋找子問題的最優解來得到複雜問題的最優解；子問題在複雜問題內重複出現，使得子

>>阅读原文<<