從SARSA算法到Q-learning with ϵ-greedy Exploration算法

這篇博文是Model-Free Control的一部分,事實上SARSA和Q-learning with ϵ-greedy Exploration都是不依賴模型的控制的一部分,如果你想要全面的瞭解它們,建議閱讀原文。 SARSA Algorithm SARSA代表state,action,reward,next state,action taken in next state,算法在每次採樣到該五
相關文章
相關標籤/搜索