AI學習筆記——基於策略的強化學習

1. 基於價值的強化學習回顧 前幾篇文章都是在講經過訓練值函數的近似函數,而後經過好比Ɛ-greedy探索方法得到最佳策略,這種方法叫作基於價值的強化學習。然而基於價值的強化學習有沒法收斂,沒法得到隨機策略,以及可能遇到狀態重名的問題。算法 沒法收斂的問題在上篇文章的「3.收斂性」中提到了,就不贅述。關於隨機策略,能夠舉一個「石頭剪子布」這樣簡單的例子。最好的策略就是隨機出招,然而基於價值的強化學
相關文章
相關標籤/搜索