強化學習(二)——Q learning、Sarsa、Deep Q learning三種算法思想

一、Q learning算法      如上圖所示,Q learning的決策值(基於值的一種算法)存儲在一張Q table中。可以先設定a1的獎勵值爲-2,a2的獎勵值爲1,那麼在s1狀態下我們選擇獎勵值大的動作a2,這就是上圖中的Q(S1,a2)估計,接下來狀態變爲s2。      更新思想:但是Q table中的決策值只是我們先假定的決策值,這不是最優的。因此需要每走一步就更新一次(單步更新
相關文章
相關標籤/搜索