【深度學習】常見的優化算法與batch size的選擇

一、梯度下降算法 (這個圖是課件裏的,可能對SGD的理解不太一樣,其實指的是下面說的小批量梯度下降) 三個類型 梯度下降具體的公式和推導網上比較多這裏就不再贅述了。 梯度下降有三種不同的形式,即批量梯度下降、小批量梯度下降隨機梯度下降(SGD)。區別主要在於讀入的數據數量不同,依次減小。批量梯度下降是對全部數據求導取平均,小批量則是取一部分,一般都是8的冪,而隨機梯度下降取的是一個樣本,對內存的壓
相關文章
相關標籤/搜索