RL強化學習各種算法流程僞代碼

時間 2021-01-15

原文原文鏈接

policy iteration value iteration 注：policy iteration使用bellman方程來更新value，最後收斂的value 即是當前policy下的value值（所以叫做對policy進行評估），目的是爲了後面的policy improvement得到新的policy。而value iteration是使用bellman 最優方程來更新value，最後收斂

>>阅读原文<<