Lee Hung-yi強化學習 | (4) Q-learning更高階的算法

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件地址 1. Double DQN(DDQN) DQN的Q-value往往是被高估的,如下圖: 上圖爲四個遊戲的訓練結果的對比。 橙色的曲線代表DQN估測的Q-value,橙色的直線代表DQN訓練出來的policy實際中獲得的Q-value. 藍色的曲線代表Double DQN估測的Q-v
相關文章
相關標籤/搜索