對隨機梯度下降+mini-batch的理解

    隨機梯度下降的每輪訓練包含了多次迭代,每次迭代將訓練數據隨機分成M份,每次迭代選取一份進行訓練,該份數據被稱爲mini-batch,mini-batch大小可在1 ~ N之間,若爲1,則退化爲在線學習,訓練過程如下。       那mini-bath爲何會加速訓練?這裏我給出一個具有啓發式的見解,不見的有理論支撐,但可能有助於理解。如下圖       假設我們的訓練集只有4個貓的圖片,其中
相關文章
相關標籤/搜索