7.連續空間上的Q-learning

時間 2021-01-19

原文原文鏈接

目錄深度強化學習目錄簡介 Q-learning的實現是比較簡單的，但只能用在離散行爲空間的情況下。在連續空間中該怎麼操作？比較常見的方法是將連續空間離散化，從 A A A中採樣，然後再用傳統的方法運算。但這種方法是有限的，且效果一般。還有一種方法是gradient ascent。我們知道採取的行爲a滿足： a = a r g max ⁡ a ∈ A Q ( s , a ) a=arg\max_

>>阅读原文<<