強化學習中的Q-learning算法和Sarsa算法的區別

歡迎點擊參觀我的 ——> 個人學習網站 Q-learning 算法描述: Sarsa 算法描述: 假設我們的 Q(s, a) 是一個 Q table ,如下圖所示,該表格表示共有三個 state (狀態): s1 s 1 、 s2 s 2 、 s3 s 3 ,每個狀態都有三個可選 action (動作) : a1 a 1 、 a2 a 2 、 a3 a 3 ,對所有的狀態-動作以 0 賦值: Q(
相關文章
相關標籤/搜索