David Silver《Reinforcement Learning》課程解讀—— Lecture 3: Planning by Dynamic Programming

David Silver《Reinforcement Learning》課程解讀—— Lecture 3: Planning by Dynamic Programming DP用來解決MDPs的planning問題,主要解決途徑有policy iteration和value iteration。 目錄: Introduction Policy Evaluation Policy Iteration
相關文章
相關標籤/搜索