Q-learning

時間 2021-07-13

原文原文鏈接

一、介紹 Q-learning 算法本質上是在求解函數Q(s,a). 如下圖，根據狀態s和動作a, 得出在狀態s下采取動作a會獲得的未來的獎勵，即Q(s,a)。然後根據Q(s,a)的值，決定下一步動作該如何選擇。二、算法 Q-learning 算法中我們通過獲得Q(s,a)函數來尋找在某個狀態下的最好的動作，使得最終獲得的累計獎勵最大其Q(s,a)的計算方法是利用貝爾曼方程如下圖是常見的兩

>>阅读原文<<

1. 強化學習——Qlearning
2. 強化學習--QLearning
3. Qlearning、sarsa以及sarsa_lambda
4. 強化學習——Qlearning——value based
5. 強化學習學習總結（一）——Qlearning
6. 強化學習筆記（一） Qlearning & Sarsa
7. 強化學習學習總結（二）——QLearning算法更新
8. TensorFlow應用實戰-17-Qlearning實現迷宮小遊戲
9. 【強化學習--Qlearning】快速入門Q-learning強化學習思想
10. 西瓜書強化學習QLearning算法與網上版本比較
更多相關文章...

相關標籤/搜索

qlearning