強化學習—DQN算法原理詳解

強化學習—DQN算法原理詳解 一、 概述 強化學習算法可以分爲三大類:value based, policy based 和 actor critic。常見的是以DQN爲代表的value based算法,這種算法中只有一個值函數網絡,沒有policy網絡,以及以DDPG,TRPO爲代表的actor-critic算法,這種算法中既有值函數網絡,又有policy網絡。 說到DQN中有值函數網絡,這裏簡
相關文章
相關標籤/搜索