強化學習中的各類算法

時間 2021-01-11

原文原文鏈接

現有的強化學習主要分爲五種：通過價值選行爲：Q-learning、Sarsa、Deep Q Network 直接選行爲：Policy Gradients 想象環境並從中學習：Model Based RL 回合更新：基礎版的Policy Gradients、Monte-Carlo Learning 單步更新：Q Learning、Sarsa、升級版Policy Gradients 一、Q-Lear

>>阅读原文<<