強化學習—DQN算法原理詳解

時間 2021-01-01

原文原文鏈接

強化學習—DQN算法原理詳解一、概述強化學習算法可以分爲三大類：value based, policy based 和 actor critic。常見的是以DQN爲代表的value based算法，這種算法中只有一個值函數網絡，沒有policy網絡，以及以DDPG,TRPO爲代表的actor-critic算法，這種算法中既有值函數網絡，又有policy網絡。說到DQN中有值函數網絡，這裏簡

>>阅读原文<<