[強化學習-4] 蒙特卡洛和時序差分法-控制

時間 2019-12-09

標籤強化學習蒙特卡洛時序差分控制简体版

原文原文鏈接

前奏上一篇博客利用model free的蒙特卡洛和時序差分法對狀態值函數進行估計，可是當咱們在狀態值函數的基礎上作策略提高時，仍是須要環境的，那咱們還不如干脆在Q(s, a)的基礎上直接控制策略。web v(s)爲基礎，只有知道了給定動做後，各個狀態的轉移機率，才能知道哪一個動做好 q(s, a)爲基礎，直接就貪心了貪心時採用的是ε-greedy，即以1-ε的機率選取是Q(s, a)最大的動做

>>阅读原文<<