[強化學習-4] 蒙特卡洛和時序差分法-控制

前奏 上一篇博客利用model free的蒙特卡洛和時序差分法對狀態值函數進行估計,可是當咱們在狀態值函數的基礎上作策略提高時,仍是須要環境的,那咱們還不如干脆在Q(s, a)的基礎上直接控制策略。web v(s)爲基礎,只有知道了給定動做後,各個狀態的轉移機率,才能知道哪一個動做好 q(s, a)爲基礎,直接就貪心了 貪心時採用的是ε-greedy,即以1-ε的機率選取是Q(s, a)最大的動做
相關文章
相關標籤/搜索