強化學習之探索與利用(二)

時間 2021-01-11

標籤強化學習算法機器學習简体版

原文原文鏈接

常用的探索方法衰減的 ϵ \epsilon ϵ-貪婪探索不確定行爲優先探索樂觀初始估計可信區間上限概率匹配基於信息價值的探索衰減的 ϵ \epsilon ϵ-貪婪探索衰減的 ϵ \epsilon ϵ-貪婪探索是在 ϵ \epsilon ϵ-貪婪探索上的改進，其核心思想是隨着時間的推移，採用隨機行爲的概率 ϵ \epsilon ϵ越來越小。理論上隨時間改變的 ϵ \epsilon ϵ

>>阅读原文<<