強化學習(2) 動態規劃（Dymatic Progressing）

時間 2021-07-14

標籤強化學習RL 機器學習深度學習简体版

原文原文鏈接

1. 1 同步價值迭代動態規劃來解決強化學習的規劃問題。在已經瞭解了狀態、行爲空間、轉移概率矩陣、獎勵等信息的基礎上，判斷一個策略的價值函數。或者判斷策略的優劣尋找最優的策略。一般強化學習是不知道上述的一些動力學環境，而且複雜的問題無法通過動態規劃解決。動態規劃思想是把複雜問題變成求解子問題，最終再得到整個問題。子問題的結果一般需要保存以備後用。如果某個子問題重複出現，就可以重複使用結果。

>>阅读原文<<