Actor-Critic：強化學習中的參與者-評價者算法簡介

時間 2021-01-13

標籤深度學習強化學習機器學習简体版

原文原文鏈接

Actor-Critic從名字上看包括兩部分，參與者(Actor)和評價者(Critic)。其中Actor使用策略函數，負責生成動作(Action)並和環境交互。而Critic使用我們之前講到了的價值函數，負責評估Actor的表現，並指導Actor下一階段的動作。基於策略和基於價值的RL算法在基於策略的RL中，最優策略是通過直接操縱策略來計算的，而基於價值的函數通過找到最優值函數來隱式地找到最

>>阅读原文<<

1. 強化學習（一）——簡介
2. 強化學習-簡介
3. 001-強化學習簡介
4. 強化學習(一)：簡介
5. 強化學習簡介
6. 強化學習之簡介
7. 強化學習——簡介
8. 強化學習中的各種算法
9. 強化學習中的各類算法
10. 學之者生，用之者死——ACE歷史與簡評
更多相關文章...
• Scala 簡介 - Scala教程
• AJAX 簡介 - PHP教程
• 適用於PHP初學者的學習線路和建議
• Kotlin學習（一）基本語法

相關標籤/搜索