強化學習的基本迭代方法

作者|Nathan Lambert 編譯|VK 來源|Towards Data Science 研究價值迭代和策略迭代。 本文着重於對基本的MDP進行理解(在此進行簡要回顧),將其應用於基本的強化學習方法。我將重點介紹的方法是"價值迭代"和"策略迭代"。這兩種方法是Q值迭代的基礎,它直接導致Q-Learning。 你可以閱讀我之前的一些文章(有意獨立): 什麼是馬爾可夫決策過程?(https://
相關文章
相關標籤/搜索