RL算法介紹及比較

時間 2021-01-17

原文原文鏈接

主要介紹的算法有：Q Learning、Sarsa、Sarsa(lamda)、TD、Policy Gradient、AC、A3C、DQN、DoubleDQN、DuelingDQN、DDPG、MCTS、UCT （1）Q Learning：建立Q值表，根據當前state預測Q值，用查表的方式選擇action。是value-based方法。（2）Sarsa：與QL不同的是先根據當前state選acti

>>阅读原文<<