DQN——PPO流程總結

時間 2021-01-07

原文原文鏈接

本文主要根究莫凡大大的RL教程總結下Nature DQN, Double DQN, Prioritized Replay DQN, Dueling DQN, Policy Gradient, Actor-Critic, DDPG, PPO 算法的流程。 DQN 1、將環境信息s輸入到eval網絡，輸出爲action的Q值，選擇最大Q值對應的action，或者隨機生成一個action(所謂的探索

>>阅读原文<<