Policy Gradient 和 Value based 方法的區別

[Value Based 方法] (1) Value based的方法的背景知識 對於MDP, S,A,P,R,r來說,首先是定義了value function, V(s)和Q(s,a), 在有了value function的定義以後,就可以得到 Optimal value Optimal policy 然後又引出了Bellman Equation,Bellman Equation 又可以推導出B
相關文章
相關標籤/搜索