【李弘毅深度強化學習】 5.Q-learning (Continuous Action)

時間 2021-01-16

原文原文鏈接

Q Learning是一種很好的方法，但是q learning很難處理連續動作的情況。因爲q學習是基於值得，如果動作連續，q表太大，則很難計算。但是凡是問題都有解決的方法，如何解決Q Learning難以應對連續動作得問題呢！解決方法一：在連續得動作中，我們sample採樣出一部分n個，將其變成有限動作的問題。但是這種方法的缺點就是採樣不完整，可能會造成以後的問題解決方法二：我們用梯度增加的