增強學習（二）——策略迭代與值迭代

時間 2021-01-12

原文原文鏈接

在上一篇文章中，我主要介紹了馬爾可夫決策過程（MDP）。在瞭解了增強學習的基本思想後，我們便可以繼續討論「最優策略」的求解方法：我們之前已經說到了MDP可以表示成一個元組（X, A, Psa, R），我們對最優策略的求解方法自然也就與這個元組密切相關：如果該過程的四元組均爲已知，我們稱這樣的模型爲「模型已知」，對這種已知所有環境因素的學習稱爲「有模型學習」（model-basedlearning