Reinforcement Learning, Fast and Slow

Reinforcement Learning, Fast and Slow 摘要: 深度強化學習已經取得很大成就,但是最大的缺陷在於樣本數據的有效性低。主要有兩種方法來解決這個問題: Episode Deep RL Meta RL 深度強化學習樣本數據的有效性低的原因 梯度下降。需要對參數進行迭代更新直到收斂。學習率不能太大否則無法收斂,學習率太小則收斂速度慢。 弱偏置假設。機器學習模型都是要設定
相關文章
相關標籤/搜索