強化學習(2) 動態規劃(Dymatic Progressing)

1. 1 同步價值迭代 動態規劃來解決強化學習的規劃問題。 在已經瞭解了狀態、行爲空間、轉移概率矩陣、獎勵等信息的基礎上,判斷一個策略的價值函數。或者判斷策略的優劣尋找最優的策略。 一般強化學習是不知道上述的一些動力學環境,而且複雜的問題無法通過動態規劃解決。 動態規劃思想是把複雜問題變成求解子問題,最終再得到整個問題。子問題的結果一般需要保存以備後用。如果某個子問題重複出現,就可以重複使用結果。
相關文章
相關標籤/搜索