強化學習(四)：蒙特卡羅學習(MonteCarlo)與時序差分學習(TD learning)

時間 2020-12-30

原文原文鏈接

上一節講的是在已知模型的情況下，如何去解決一個馬爾科夫決策過程(MDP)問題。方法就是通過動態規劃來評估一個給定的策略，通過不斷迭代最終得到最優價值函數。具體的做法有兩個：一個是策略迭代，一個是值迭代。從這一節開始，我們將要進入模型未知的情況下，如何去解決一個MDP問題的方法。所謂的模型未知，即狀態轉移概率 Pass′ P s s ′ a 這些我們是不知道的。所以我們無法直接利用Bellman方程

>>阅读原文<<