深度加強學習David Silver（九）——Exploration and Exploitation

時間 2019-12-13

標籤深度加強學習 david silver exploration exploitation 简体版

原文原文鏈接

本課主要內容：web multi-armed bandits contextual bandits MDPs multi-armed bandit是多臂賭博機，有元組 ⟨A,R⟩ ，目標是最大化獎勵。行動價值函數是一個行動所得到的平均獎勵： Q(a)=E[r|a] 最優價值爲 V∗=Q(a∗)=maxa∈AQ(a) regret指每一步的損失： lt=E[V∗−Q(at)] total regr

>>阅读原文<<