強化學習中的蒙特卡洛（monte-carlo）算法和時序差分算法

時間 2019-12-06

標籤強化學習蒙特卡洛 monte carlo 算法時序差分简体版

原文原文鏈接

【未完成】web 蒙特卡洛蒙特卡洛是一類通用算法，思想是經過隨機採樣逼近真實，這裏只介紹在強化學習中的應用。最初的想法應該是連續運行多個週期，好比經歷了兩次(s, a)，而且計算了對應的Gt，那麼q(s,a)取之平均就能夠了，但實際上，爲了優化策略或者值函數，不能這樣屢次採樣後直接計算，而是每次採樣（一週期）就迭代計算並更新。算法特色週期性更新：一整個週期結束了（到達了終點）纔回進行一個

>>阅读原文<<