強化學習的基本迭代方法

時間 2021-01-06

原文原文鏈接

作者|Nathan Lambert 編譯|VK 來源|Towards Data Science 研究價值迭代和策略迭代。本文着重於對基本的MDP進行理解(在此進行簡要回顧)，將其應用於基本的強化學習方法。我將重點介紹的方法是"價值迭代"和"策略迭代"。這兩種方法是Q值迭代的基礎，它直接導致Q-Learning。你可以閱讀我之前的一些文章(有意獨立)：什麼是馬爾可夫決策過程?(https://

>>阅读原文<<