7.連續空間上的Q-learning

目錄 深度強化學習目錄 簡介 Q-learning的實現是比較簡單的,但只能用在離散行爲空間的情況下。在連續空間中該怎麼操作?比較常見的方法是將連續空間離散化,從 A A A中採樣,然後再用傳統的方法運算。但這種方法是有限的,且效果一般。還有一種方法是gradient ascent。我們知道採取的行爲a滿足: a = a r g max ⁡ a ∈ A Q ( s , a ) a=arg\max_
相關文章
相關標籤/搜索