爲何不用牛頓法來代替梯度降低算法?

a. 牛頓法使用的是目標函數的二階導數,在高維狀況下這個矩陣很是大,計算和存儲都是問題。函數 b. 在小批量的狀況下,牛頓法對於二階導數的估計噪聲太大。 c.目標函數非凸的時候,牛頓法容易受到鞍點或者最大值點的吸引。
相關文章
相關標籤/搜索