理解DL的局部最小

    DL是在一個非常高維的世界裏做梯度下降。局部最小值很難形成,因爲局部最小值要求函數在所有維度上都是局部最小。更實際得情況是,函數會落到一個鞍點上,如下圖: 多層神經網絡,大部分局部極小值都在底部 ,已經非常接近全局最小值,如下圖     DL訓練的困難主要是鞍點問題。我們很可能也從來沒有真的遇到過局部極值。Bengio組這篇文章Eigenvalues of the Hessian in D
相關文章
相關標籤/搜索