Policy Gradient 和 Value based 方法的區別

時間 2021-01-02

原文原文鏈接

[Value Based 方法] (1) Value based的方法的背景知識對於MDP, S,A,P,R,r來說，首先是定義了value function, V(s)和Q(s,a), 在有了value function的定義以後，就可以得到 Optimal value Optimal policy 然後又引出了Bellman Equation，Bellman Equation 又可以推導出B

>>阅读原文<<