爲何深度學習不採用牛頓法或擬牛頓法做爲優化算法?

出處:http://blog.csdn.net/VictoriaW/article/details/71710280 緣由一:牛頓法須要用到梯度和Hessian矩陣,這兩個都難以求解。由於很難寫出深度神經網絡擬合函數的表達式,遑論直接獲得其梯度表達式,更不要說獲得基於梯度的Hessian矩陣了。 緣由二:即便能夠獲得梯度和Hessian矩陣,當輸入向量的維度N較大時,Hessian矩陣的大小是N×
相關文章
相關標籤/搜索