機器學習方法篇(25)------RL價值學習方法

時間 2021-01-06

原文原文鏈接

● 每週一言對待別人的輕視，最好的回擊是站在更高的位置。導語上一節講了如何理解增強學習中的馬爾科夫決策過程，並舉了具體的例子來描述其求解方法，對算法熟悉的人或許已經看出上節示例中使用的方法是動態規劃學習法。那麼，除了動態規劃法，增強學習的價值學習方法還有哪些？這些方法的不同之處又是什麼？ RL價值學習方法動態規劃（Dynamic Programming）是一種解決複雜問題的算法，該算法通過

>>阅读原文<<