強化學習之score function

Score Function Trick及其在機器學習中的應用 1、score function定義,就是說score function是求最大對數似然函數中讓對數似然函數梯度等於0的梯度 就是說,求解最大似然問題就是求解score function 2、再對參數求導,就會得到Fisher Information ,FIM是SF的負導數。 3、SF的期望值是0 這一個性質可以用在有baseline
相關文章
相關標籤/搜索