【李弘毅深度強化學習】 5.Q-learning (Continuous Action)

Q Learning是一種很好的方法,但是q learning很難處理連續動作的情況。因爲q學習是基於值得,如果動作連續,q表太大,則很難計算。 但是凡是問題都有解決的方法,如何解決Q Learning難以應對連續動作得問題呢! 解決方法一:在連續得動作中,我們sample採樣出一部分n個,將其變成有限動作的問題。但是這種方法的缺點就是採樣不完整,可能會造成以後的問題 解決方法二:我們用梯度增加的
相關文章
相關標籤/搜索