強化學習之探索與利用(二)

常用的探索方法 衰減的 ϵ \epsilon ϵ-貪婪探索 不確定行爲優先探索 樂觀初始估計 可信區間上限 概率匹配 基於信息價值的探索 衰減的 ϵ \epsilon ϵ-貪婪探索 衰減的 ϵ \epsilon ϵ-貪婪探索是在 ϵ \epsilon ϵ-貪婪探索上的改進,其核心思想是隨着時間的推移,採用隨機行爲的概率 ϵ \epsilon ϵ越來越小。理論上隨時間改變的 ϵ \epsilon ϵ
相關文章
相關標籤/搜索