【零基礎】神經網絡優化之動量梯度下降

一、序言   動量梯度下降也是一種神經網絡的優化方法,我們知道在梯度下降的過程中,雖然損失的整體趨勢是越來越接近0,但過程往往是非常曲折的,如下圖所示:      特別是在使用mini-batch後,由於單次參與訓練的圖片少了,這種「曲折」被放大了好幾倍。前面我們介紹過L2和dropout,它們要解決的也是「曲折」的問題,不過這種曲折指的是求得的W和b過於擬合訓練數據,導致求解曲線很曲折。動量梯度
相關文章
相關標籤/搜索