強化學習(四) - 無模型學習(MC、TDL)

上一節講的是在已知模型的情況下,通過動態規劃來解決馬爾科夫決策過程(MDP)問題。具體的做法有兩個:一個是策略迭代,一個是值迭代。 從這一節開始,我們將要進入模型未知的情況下,如何去解決MDP問題。 模型未知,即狀態轉移概率 P s s ′ a P^a_{ss′} Pss′a​ 這些我們是不知道的。所以我們無法直接利用如下Bellman方程來求解V和Q值得到最優策略。 所以,爲了能夠從環境中學習,
相關文章
相關標籤/搜索