強化學習【六】價值函數的近似表示 (內含DQN)

前言 本章之前的內容介紹的多是規模比較小的強化學習問題,生活中有許多實際問題要複雜得多,有些是屬於狀態數量巨大甚至是連續的,有些行爲數量較大或者是連續的。這些問題要是使用前幾章介紹的基本算法效率會很低,甚至會無法得到較好的解決。本章就聚焦於求解那些狀態數量多或者是連續狀態的強化學習問題。 解決這類問題的常用方法是不再使用字典之類的查表式的方法來存儲狀態或行爲的價值,而是引入適當的參數,選取恰當的描
相關文章
相關標籤/搜索