【李宏毅深度強化學習筆記】8、Imitation Learning

時間 2021-01-02

標籤強化學習 # 理論知識深度強化學習 Imitation Learning Behavior Cloning Inverse Reinforcement Learning 简体版

原文原文鏈接

【李宏毅深度強化學習筆記】1、策略梯度方法（Policy Gradient）【李宏毅深度強化學習筆記】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度強化學習筆記】3、Q-learning（Basic Idea）【李宏毅深度強化學習筆記】4、Q-learning更高階的算法【李宏毅深度強化學習筆記】5、Q-learning用於連續動作 (NAF算法

>>阅读原文<<