強化學習 by 李宏毅(個人記錄向)

P2Proximal Policy Optimization (PPO) importance sampling: On-policy -> Off-policy Gradient for update: *KL divergence(KL距離) 常用來衡量兩個概率分佈的距離 E(st,at)∼πθ′ E ( s t , a t ) ∼ π θ ′ Q-learning critic 評價acti
相關文章
相關標籤/搜索