強化學習（二）——Q learning、Sarsa、Deep Q learning三種算法思想

時間 2021-01-08

原文原文鏈接

一、Q learning算法如上圖所示，Q learning的決策值（基於值的一種算法）存儲在一張Q table中。可以先設定a1的獎勵值爲-2，a2的獎勵值爲1，那麼在s1狀態下我們選擇獎勵值大的動作a2，這就是上圖中的Q（S1，a2)估計，接下來狀態變爲s2。更新思想：但是Q table中的決策值只是我們先假定的決策值，這不是最優的。因此需要每走一步就更新一次（單步更新

>>阅读原文<<