4. 強化學習之——值函數近似

時間 2020-12-29

標籤強化學習简体版

原文原文鏈接

課程綱要值函數近似簡介值函數近似用於prediction【給定策略函數給定它的價值】值函數近似用於control DQN簡介爲什麼要有值函數近似之前的課程提到的 RL 問題：像 Cliff Walk 等，都只有幾千或者幾百種狀態，可以用 V值的向量或者 Q-Table 的方式表達出來而其它大規模的 MDP 問題：像 Go【10**170】等狀態空間十分十分巨大，宇宙中的原子數量也只有

>>阅读原文<<