[Reinforcement Learning] 動態規劃(Planning)

時間 2021-01-02

標籤強化學習算法動態規劃深度學習简体版

原文原文鏈接

[Reinforcement Learning] 動態規劃(Planning) 動態規劃動態規劃（Dynamic Programming，簡稱DP）是一種通過把原問題分解爲相對簡單的子問題的方式求解複雜問題的方法。動態規劃常常適用於具有如下性質的問題：具有最優子結構（Optimal substructure） Principle of optimality applies Optimal s

>>阅读原文<<