強化學習（2）-算法總論

時間 2021-01-13

原文原文鏈接

DRL的基本模型： DRL算法大框架：大腦的執行機構-actor：輸入狀態s，輸出動作a（policy gradient算法）大腦的評判機構-critrc：根據回饋r（外界給的）進行調整。（Q learning）人類也是在本能和價值觀影響作用下進行行爲，並且價值受經驗的影響不斷改變。在actor-critic的框架下：有DQN、A3C、UNREAL等算法提出。 DQN- 第一個提出的DR

>>阅读原文<<

相關文章

1. 強化學習概論2
2. 2. 強化學習方法彙總
3. 強化學習算法的總結
4. 強化學習算法分類總結
5. 強化學習常用算法總結
6. 強化學習算法
7. 強化學習DQN算法
8. PPO-強化學習算法
9. 強化學習算法DQN
10. 強化學習——DQN算法
更多相關文章...
• XML 總結下一步學習什麼呢？ - XML 教程
• 您已經學習了 XML Schema，下一步學習什麼呢？ - XML Schema 教程
• Kotlin學習（一）基本語法
• 算法總結-回溯法

相關標籤/搜索

0.強化學習導論

強化學習（第2版）

強化學習篇

PHP 7 新特性

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<