強化學習算法學習彙總筆記 (一) — Q-learning、Sarsa、DQN、Policy Gradients

一. 強化學習的分類 1.Model-free 和 Model-based Model-free 即機器人不知道外界環境信息,只能在機器人執行每一步動做後從環境中獲得反饋而後去學習,只能循序漸進,一步一步等待真實世界的反饋,再根據反饋採起下一步行動。諸如Q Learning, Sarsa,Policy Gradients等算法。python Model-based 指機器人對環境有必定的瞭解,能夠
相關文章
相關標籤/搜索