強化學習之score function

時間 2020-12-29

標籤 Reinforcement Learning 简体版

原文原文鏈接

Score Function Trick及其在機器學習中的應用 1、score function定義，就是說score function是求最大對數似然函數中讓對數似然函數梯度等於0的梯度就是說，求解最大似然問題就是求解score function 2、再對參數求導，就會得到Fisher Information ，FIM是SF的負導數。 3、SF的期望值是0 這一個性質可以用在有baseline

>>阅读原文<<