機器學習方法篇(24)------理解RL中的MDP

時間 2021-01-19

原文原文鏈接

● 每週一言珍惜當下，是對未來最好的承諾。導語上一節介紹了增強學習的一些基本概念，並提到了增強學習被廣泛應用的各種場景。那麼，增強學習在這些應用當中到底是如何起作用的？換言之，增強學習的優化目標是什麼？ MDP 我們知道， AlphaGo的核心技術是增強學習，我們不妨先仔細想一個問題：對於圍棋對弈過程中的每一回合，落子之法究竟受到哪些因素的影響？拋開人類棋手可能受到的各種情感、心理上的干擾