[強化學習-4] 蒙特卡洛和時序差分法-控制

時間 2021-01-13

原文原文鏈接

前奏上一篇博客利用model free的蒙特卡洛和時序差分法對狀態值函數進行估計，但是當我們在狀態值函數的基礎上做策略提升時，還是需要環境的，那我們還不如干脆在Q(s, a)的基礎上直接控制策略。 v(s)爲基礎，只有知道了給定動作後，各個狀態的轉移概率，才能知道哪個動作好 q(s, a)爲基礎，直接就貪心了貪心時採用的是ε-greedy，即以1-ε的概率選取是Q(s, a)最大的動作，以ε的

>>阅读原文<<