機器學習（三十五）——Actor-Critic, Integrating Learning and Planning（1）

時間 2021-01-12

原文原文鏈接

Actor-Critic 概述 MC策略梯度方法使用了收獲作爲狀態價值的估計，它雖然是無偏的，但是噪聲卻比較大，也就是變異性（方差）較高。如果我們能夠相對準確地估計狀態價值，用它來指導策略更新，那麼是不是會有更好的學習效果呢？這就是Actor-Critic策略梯度的主要思想。 Actor-Critic的字面意思是「演員-評論」，相當於演員在演戲的同時，有評論家指點，繼而演員演得越來越好。即使用Cr

>>阅读原文<<