李宏毅強化學習筆記【3.Actor-Critic】

時間 2021-01-21

標籤強化學習简体版

原文原文鏈接

複習策略梯度policy gradient 計算在某一個state，採取action a的概率。到遊戲結束爲止，獲得多少reward。 G很不穩定。除非sample很多。複習Q-learning 用期望代替sample，value-based 第一種方法算V，用π和環境做互動，看到s之後，累計reward期望值是多少。第二種方法，用π，當再s採取a，累計reward是多少。 TD比較穩，M

>>阅读原文<<