從SARSA算法到Q-learning with ϵ-greedy Exploration算法

時間 2020-12-30

標籤 SARSA Q-Learning epsilon-greedy policy Reinforcement Learing 简体版

原文原文鏈接

這篇博文是Model-Free Control的一部分，事實上SARSA和Q-learning with ϵ-greedy Exploration都是不依賴模型的控制的一部分，如果你想要全面的瞭解它們，建議閱讀原文。 SARSA Algorithm SARSA代表state，action，reward，next state，action taken in next state，算法在每次採樣到該五

>>阅读原文<<