[Reinforcement Learning] 動態規劃(Planning)

[Reinforcement Learning] 動態規劃(Planning) 動態規劃 動態規劃(Dynamic Programming,簡稱DP)是一種通過把原問題分解爲相對簡單的子問題的方式求解複雜問題的方法。 動態規劃常常適用於具有如下性質的問題: 具有最優子結構(Optimal substructure) Principle of optimality applies Optimal s
相關文章
相關標籤/搜索