RL強化學習各種算法流程僞代碼

policy iteration value iteration 注:policy iteration使用bellman方程來更新value,最後收斂的value 即 是當前policy下的value值(所以叫做對policy進行評估),目的是爲了後面的policy improvement得到新的policy。而value iteration是使用bellman 最優方程來更新value,最後收斂
相關文章
相關標籤/搜索