深度加強學習David Silver(九)——Exploration and Exploitation

本課主要內容:web multi-armed bandits contextual bandits MDPs multi-armed bandit是多臂賭博機,有元組 ⟨A,R⟩ ,目標是最大化獎勵。 行動價值函數是一個行動所得到的平均獎勵: Q(a)=E[r|a] 最優價值爲 V∗=Q(a∗)=maxa∈AQ(a) regret指每一步的損失: lt=E[V∗−Q(at)] total regr
相關文章
相關標籤/搜索