Log-Linear 模型(也叫作最大熵模型)是 NLP 領域中使用最爲普遍的模型之一,其訓練常採用最大似然準則,且爲防止過擬合,每每在目標函數中加入(能夠產生稀疏性的) L1 正則。但對於這種帶 L1 正則的最大熵模型,直接採用標準的隨機梯度降低法(SGD)會出現效率不高和難以真正產生稀疏性等問題。本文爲閱讀做者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的論文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty (2009)後整理的讀書筆記,文中提出了一種基於累積懲罰的 SGD 方法,能夠克服上述提到的兩個問題。web
做者: peghoty 函數
出處: http://blog.csdn.net/itplus/article/details/30049501spa
歡迎轉載/分享, 但請務必聲明文章出處..net