增強學習(二)——策略迭代與值迭代

在上一篇文章中,我主要介紹了馬爾可夫決策過程(MDP)。在瞭解了增強學習的基本思想後,我們便可以繼續討論「最優策略」的求解方法: 我們之前已經說到了MDP可以表示成一個元組(X, A, Psa, R),我們對最優策略的求解方法自然也就與這個元組密切相關:如果該過程的四元組均爲已知,我們稱這樣的模型爲「模型已知」,對這種已知所有環境因素的學習稱爲「有模型學習」(model-basedlearning
相關文章
相關標籤/搜索