強化學習(Double/Prioritised Replay/Dueling DQN)

Q_Learning和Sarsa中都是利用了Q表來記錄Q值,小規模場景狀態往往比較少,便可以方便的用表存儲再查詢更新,但很多現實問題狀態和動作都很複雜,而且如果出現連續值的狀態則需要等距離分割離散,存儲量往往太大,比如像下圍棋如果還用Q表來存狀態是不可能的事情。那麼如果不用Q表存取,怎麼得到價值函數呢? 近似表示 那麼就來擬合吧!即近似表示學習價值函數。 v ( S ) ≈ v ^ ( S , w
相關文章
相關標籤/搜索