強化學習中的蒙特卡洛(monte-carlo)算法和時序差分算法

【未完成】web 蒙特卡洛 蒙特卡洛是一類通用算法,思想是經過隨機採樣逼近真實,這裏只介紹在強化學習中的應用。 最初的想法應該是連續運行多個週期,好比經歷了兩次(s, a),而且計算了對應的Gt,那麼q(s,a)取之平均就能夠了,但實際上,爲了優化策略或者值函數,不能這樣屢次採樣後直接計算,而是每次採樣(一週期)就迭代計算並更新。算法 特色 週期性更新: 一整個週期結束了(到達了終點)纔回進行一個
相關文章
相關標籤/搜索