強化學習（Double/Prioritised Replay/Dueling DQN）

時間 2021-01-12

標籤 DQN DDQN prioritised replay dueling gym 简体版

原文原文鏈接

Q_Learning和Sarsa中都是利用了Q表來記錄Q值，小規模場景狀態往往比較少，便可以方便的用表存儲再查詢更新，但很多現實問題狀態和動作都很複雜，而且如果出現連續值的狀態則需要等距離分割離散，存儲量往往太大，比如像下圍棋如果還用Q表來存狀態是不可能的事情。那麼如果不用Q表存取，怎麼得到價值函數呢？近似表示那麼就來擬合吧！即近似表示學習價值函數。 v ( S ) ≈ v ^ ( S , w

>>阅读原文<<