強化學習導論 第四章 動態規劃

  這一篇來講一下第四章,動態規劃。 DP這個詞,指的是一系列的算法,這些算法主要用來解決:當我有了一個可以完美模擬馬爾可夫過程的模型之後,如何計算最優policies的問題。注意是policies,表明最優的策略可能不止一個。經典的DP算法在強化學習中的應用受限的原因有兩個:一個是強假設滿足不了,就是無法保證我能先有一個完美的模型來描述整個馬爾可夫過程;另一個就是計算開銷太大。但這仍掩蓋不了其理
相關文章
相關標籤/搜索