RL算法介紹及比較

主要介紹的算法有:Q Learning、Sarsa、Sarsa(lamda)、TD、Policy Gradient、AC、A3C、DQN、DoubleDQN、DuelingDQN、DDPG、MCTS、UCT (1)Q Learning:建立Q值表,根據當前state預測Q值,用查表的方式選擇action。是value-based方法。 (2)Sarsa:與QL不同的是先根據當前state選acti
相關文章
相關標籤/搜索