機器學習算法——demo

爲腦殘的面試問題而生,哈哈~ (1)LR爲什麼不可以用MSE作爲損失函數? MSE 會有梯度消失現象 MSE 的導數非凸 求最優解困難 (2)L1 相比於 L2 爲什麼容易獲得稀疏解? (3)L1正則化項如何求導? 對於目標函數不是處處連續可微的情況,通常是使用次梯度(subgradient)來進行優化,由於次梯度自身的原因會導致兩方面問題:求解慢、通常不會產生稀疏解。 Proximal Algo
相關文章
相關標籤/搜索