Lee Hung-yi強化學習 | (4) Q-learning更高階的算法

時間 2021-01-16

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件地址 1. Double DQN（DDQN） DQN的Q-value往往是被高估的，如下圖: 上圖爲四個遊戲的訓練結果的對比。橙色的曲線代表DQN估測的Q-value，橙色的直線代表DQN訓練出來的policy實際中獲得的Q-value. 藍色的曲線代表Double DQN估測的Q-v

>>阅读原文<<