【RL】DQN及其各種優化算法

上一篇博文的末尾,我們介紹了傳統QLearning的劣勢——那就是需要維護一個Q表,而對於很多狀態,連續動作的情況,我們Q表的大小將會爆炸性地增長。我們微小的內存必然存不下這麼大的Q表。所以我們要轉換我們的思路。 其實,Q表在之前的QLearning中,只是扮演了一個函數的角色——這句話怎麼理解?給定動作和狀態,他會給你返回一個價值。 所以我們爲什麼不直接建立一個函數呢? 這樣我們既可以完成Q表的
相關文章
相關標籤/搜索