8. 深度學習實踐:優化(續)

接上部分討論:8. 深度學習實踐:優化 3. 基本算法 3.1 隨機梯度下降 SGD及其變種很可能是一般ML中應用最多的優化算法。 關鍵參數:學習率。最好的選擇方法:監測目標函數值隨時間變化的學習曲線。與其科學,更像藝術。實踐中有必要隨時間逐漸降低學習率。 SGD(1998年就有了)、小批量、基於梯度優化的在線學習算法,一個重要性質:每一步更新的計算時間不依賴於訓練樣本數目的多寡。 3.2 動量(
相關文章
相關標籤/搜索