一種利用 Cumulative Penalty 訓練 L1 正則 Log-linear 模型的隨機梯度降低法

        Log-Linear 模型(也叫作最大熵模型)是 NLP 領域中使用最爲普遍的模型之一,其訓練常採用最大似然準則,且爲防止過擬合,每每在目標函數中加入(能夠產生稀疏性的) L1 正則。但對於這種帶 L1 正則的最大熵模型,直接採用標準的隨機梯度降低法(SGD)會出現效率不高難以真正產生稀疏性等問題。本文爲閱讀做者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的論文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty (2009)後整理的讀書筆記,文中提出了一種基於累積懲罰的 SGD 方法,能夠克服上述提到的兩個問題。web

 






 


做者: peghoty 函數

出處: http://blog.csdn.net/itplus/article/details/30049501spa

歡迎轉載/分享, 但請務必聲明文章出處..net

相關文章
相關標籤/搜索