一種利用 Cumulative Penalty 訓練 L1 正則 Log-linear 模型的隨機梯度降低法

時間 2019-12-08

標籤一種利用 cumulative penalty 訓練 l1 正則 log linear 模型隨機梯度降低欄目正則表達式简体版

原文原文鏈接

Log-Linear 模型（也叫作最大熵模型）是 NLP 領域中使用最爲普遍的模型之一，其訓練常採用最大似然準則，且爲防止過擬合，每每在目標函數中加入（能夠產生稀疏性的） L1 正則。但對於這種帶 L1 正則的最大熵模型，直接採用標準的隨機梯度降低法（SGD）會出現效率不高和難以真正產生稀疏性等問題。本文爲閱讀做者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的論文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty （2009）後整理的讀書筆記，文中提出了一種基於累積懲罰的 SGD 方法，能夠克服上述提到的兩個問題。web