AI學習筆記——基於策略的強化學習

時間 2019-12-06

標籤學習筆記基於策略強化简体版

原文原文鏈接

1. 基於價值的強化學習回顧前幾篇文章都是在講經過訓練值函數的近似函數，而後經過好比Ɛ-greedy探索方法得到最佳策略，這種方法叫作基於價值的強化學習。然而基於價值的強化學習有沒法收斂，沒法得到隨機策略，以及可能遇到狀態重名的問題。算法沒法收斂的問題在上篇文章的「3.收斂性」中提到了，就不贅述。關於隨機策略，能夠舉一個「石頭剪子布」這樣簡單的例子。最好的策略就是隨機出招，然而基於價值的強化學

>>阅读原文<<