強化學習中的各類算法

現有的強化學習主要分爲五種: 通過價值選行爲:Q-learning、Sarsa、Deep Q Network 直接選行爲:Policy Gradients 想象環境並從中學習:Model Based RL 回合更新:基礎版的Policy Gradients、Monte-Carlo Learning 單步更新:Q Learning、Sarsa、升級版Policy Gradients 一、Q-Lear
相關文章
相關標籤/搜索