強化學習中的各種算法

時間 2019-12-11

標籤強化學習各種算法简体版

原文原文鏈接

現有的強化學習主要分爲五種：經過價值選行爲：Q-learning、Sarsa、Deep Q Network 直接選行爲：Policy Gradients 想象環境並從中學習：Model Based RLpython 回合更新：基礎版的Policy Gradients、Monte-Carlo Learning 單步更新：Q Learning、Sarsa、升級版Policy Gradientsweb

>>阅读原文<<