Sarsa

時間 2021-01-03

標籤 sarsa 简体版

原文原文鏈接

Sarsa的決策部分與Q-Learning一樣，使用Q表形式，挑選值較大的動作施加在環境中來換取獎懲，但sarsa的更新方式不同。其更新準則如下：同樣, 在時挑選一個帶來最大潛在獎勵的動作 a2繼續寫作業狀態 s2。此時, 如果是 Q learning, 首先會觀看一下在 s2 上選取哪一個動作會帶來最大的獎勵, 但是在真正要做決定時, 卻不一定會選取到那個帶來最大獎勵的動作, Q-le

>>阅读原文<<

1. 4. Sarsa
2. Sarsa（lambda）理解
3. Q-learning和Sarsa
4. 5. Sarsa(lambda)
5. TD Learning，SARSA，Q Learning
6. Qlearning、sarsa以及sarsa_lambda
7. 【強化學習】SARSA
8. 強化學習（2）：Sarsa 算法及 Sarsa(lambda) 算法
9. 強化學習筆記(2)：Sarsa 與 Sarsa(lambda)
10. Sarsa 與 Q learning對比
更多相關文章...

相關標籤/搜索

sarsa

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

1. vs2019運行opencv圖片顯示代碼時，窗口亂碼
2. app自動化 - 元素定位不到？別慌，看完你就能解決
3. 在Win8下用cisco ××× Client連接時報Reason 422錯誤的解決方法
4. eclipse快速補全代碼
5. Eclipse中Java/Html/Css/Jsp/JavaScript等代碼的格式化
6. idea+spring boot +mabitys(wanglezapin)+mysql (1)
7. 勒索病毒發生變種新文件名將帶有「.UIWIX」後綴
8. 【原創】Python 源文件編碼解讀
9. iOS9企業部署分發問題深入瞭解與解決
10. 安裝pytorch報錯CondaHTTPError：******

本站公眾號

歡迎關注本站公眾號,獲取更多信息

1. 4. Sarsa
2. Sarsa（lambda）理解
3. Q-learning和Sarsa
4. 5. Sarsa(lambda)
5. TD Learning，SARSA，Q Learning
6. Qlearning、sarsa以及sarsa_lambda
7. 【強化學習】SARSA
8. 強化學習（2）：Sarsa 算法及 Sarsa(lambda) 算法
9. 強化學習筆記(2)：Sarsa 與 Sarsa(lambda)
10. Sarsa 與 Q learning對比

>>更多相關文章<<