DQN——PPO流程總結

本文主要根究莫凡大大的RL教程總結下Nature DQN, Double DQN, Prioritized Replay DQN, Dueling DQN, Policy Gradient, Actor-Critic, DDPG, PPO 算法的流程。 DQN 1、將環境信息s輸入到eval網絡, 輸出爲action的Q值,選擇最大Q值對應的action, 或者隨機生成一個action(所謂的探索
相關文章
相關標籤/搜索