Actor-Critic:強化學習中的參與者-評價者算法簡介

Actor-Critic從名字上看包括兩部分,參與者(Actor)和評價者(Critic)。其中Actor使用策略函數,負責生成動作(Action)並和環境交互。而Critic使用我們之前講到了的價值函數,負責評估Actor的表現,並指導Actor下一階段的動作。 基於策略和基於價值的RL算法 在基於策略的RL中,最優策略是通過直接操縱策略來計算的,而基於價值的函數通過找到最優值函數來隱式地找到最
相關文章
相關標籤/搜索