強化學習導論第四章動態規劃

時間 2021-01-17

原文原文鏈接

這一篇來講一下第四章，動態規劃。 DP這個詞，指的是一系列的算法，這些算法主要用來解決：當我有了一個可以完美模擬馬爾可夫過程的模型之後，如何計算最優policies的問題。注意是policies，表明最優的策略可能不止一個。經典的DP算法在強化學習中的應用受限的原因有兩個：一個是強假設滿足不了，就是無法保證我能先有一個完美的模型來描述整個馬爾可夫過程；另一個就是計算開銷太大。但這仍掩蓋不了其理

>>阅读原文<<