強化學習中的各種算法

現有的強化學習主要分爲五種: 經過價值選行爲:Q-learning、Sarsa、Deep Q Network 直接選行爲:Policy Gradients 想象環境並從中學習:Model Based RLpython 回合更新:基礎版的Policy Gradients、Monte-Carlo Learning 單步更新:Q Learning、Sarsa、升級版Policy Gradientsweb
相關文章
相關標籤/搜索