機器學習方法篇(24)------理解RL中的MDP

● 每週一言 珍惜當下,是對未來最好的承諾。 導語 上一節介紹了增強學習的一些基本概念,並提到了增強學習被廣泛應用的各種場景。那麼,增強學習在這些應用當中到底是如何起作用的?換言之,增強學習的優化目標是什麼? MDP 我們知道, AlphaGo的核心技術是增強學習,我們不妨先仔細想一個問題:對於圍棋對弈過程中的每一回合,落子之法究竟受到哪些因素的影響? 拋開人類棋手可能受到的各種情感、心理上的干擾
相關文章
相關標籤/搜索