David Silver《Reinforcement Learning》課程解讀—— Lecture 3： Planning by Dynamic Programming

時間 2021-01-02

標籤強化學習機器學習人工智能简体版

原文原文鏈接

David Silver《Reinforcement Learning》課程解讀—— Lecture 3： Planning by Dynamic Programming DP用來解決MDPs的planning問題，主要解決途徑有policy iteration和value iteration。目錄： Introduction Policy Evaluation Policy Iteration

>>阅读原文<<