理解DQN算法

Q-Learning算法 Q-Learning的算法如下: 對於Q-Learning,首先就是要確定如何存儲Q值,最簡單的想法就是用矩陣,一個s一個a對應一個Q值,所以可以把Q值想象爲一個很大的表格,橫列代表s,縱列代表a,裏面的數字代表Q值. 維度災難 在上面的分析中,我們使用表格來表示Q(s,a),但是這個在現實的很多問題上是幾乎不可行的,因爲狀態實在是太多。使用表格的方式根本存不下。 怎麼辦
相關文章
相關標籤/搜索