Reinforcement Learning_By David Silver筆記五: Model Free Control

時間 2021-01-02

原文原文鏈接

(Optimise the value function of an unknown MDP) On-policy learning —— Learn about policy π from experience sampled from π Off-policy learning —— Learn about policy π from experience sampled from u On-