4. 強化學習之——值函數近似

課程綱要 值函數近似簡介 值函數近似用於prediction【給定策略函數給定它的價值】 值函數近似用於control DQN簡介 爲什麼要有值函數近似 之前的課程提到的 RL 問題:像 Cliff Walk 等,都只有幾千或者幾百種狀態,可以用 V值的向量或者 Q-Table 的方式表達出來 而其它大規模的 MDP 問題:像 Go【10**170】 等狀態空間十分十分巨大,宇宙中的原子數量也只有
相關文章
相關標籤/搜索