CS231N-14-Reinforcement Learning

時間 2021-01-13

原文原文鏈接

What is Reinforcement Learning Markov Decision Process MDP Value Function Q-value Function Bellman Equation Q-learning Policy Gradient 最後一節。 So far, we have mainly talked about supervised learning lik