強化學習(四) - 無模型學習(MC、TDL)

時間 2021-01-13

標籤強化學習無模型 TDL 简体版

原文原文鏈接

上一節講的是在已知模型的情況下，通過動態規劃來解決馬爾科夫決策過程(MDP)問題。具體的做法有兩個：一個是策略迭代，一個是值迭代。從這一節開始，我們將要進入模型未知的情況下，如何去解決MDP問題。模型未知，即狀態轉移概率 P s s ′ a P^a_{ss′} Pss′a 這些我們是不知道的。所以我們無法直接利用如下Bellman方程來求解V和Q值得到最優策略。所以，爲了能夠從環境中學習，

>>阅读原文<<