別用大批量mini-batch訓練神經網絡,用局部SGD!

\\ 介紹\\ 隨機梯度下降(SGD)由於其極高的效率,成爲目前大多數機器學習應用中最常見的訓練方法。在考慮計算效率時,mini-batch SGD同時計算多個隨機梯度,似乎不符合計算效率的要求。但是mini-batch SGD可以在不同網絡之間並行化,所以它是現代分佈式深度學習應用的更好選擇。有以下兩個原因:(1)mini-batch SGD可以利用在GPU上的局部計算並行性;(2)降低參數
相關文章
相關標籤/搜索