[強化學習-4] 蒙特卡洛和時序差分法-控制

前奏 上一篇博客利用model free的蒙特卡洛和時序差分法對狀態值函數進行估計,但是當我們在狀態值函數的基礎上做策略提升時,還是需要環境的,那我們還不如干脆在Q(s, a)的基礎上直接控制策略。 v(s)爲基礎,只有知道了給定動作後,各個狀態的轉移概率,才能知道哪個動作好 q(s, a)爲基礎,直接就貪心了 貪心時採用的是ε-greedy,即以1-ε的概率選取是Q(s, a)最大的動作,以ε的
相關文章
相關標籤/搜索