強化學習算法學習彙總筆記 (一) — Q-learning、Sarsa、DQN、Policy Gradients

時間 2020-05-23

標籤強化學習算法彙總筆記 learning sarsa dqn policy gradients 简体版

原文原文鏈接

一. 強化學習的分類 1.Model-free 和 Model-based Model-free 即機器人不知道外界環境信息，只能在機器人執行每一步動做後從環境中獲得反饋而後去學習，只能循序漸進，一步一步等待真實世界的反饋，再根據反饋採起下一步行動。諸如Q Learning， Sarsa，Policy Gradients等算法。python Model-based 指機器人對環境有必定的瞭解，能夠

>>阅读原文<<