深度學習(二)

算法優化 mini-batch 將龐大的數據集分成許多個batch,遍歷這些batch,每個batch使用梯度下降法進行優化 如果batch的數目太大,則每次迭代的時間太長,如果batch的數目爲1,則退化爲隨機梯度下降法,這樣就喪失了向量化的加速作用,因此,需要合理選擇batch的數目,一般對於較大的數據集,選擇爲64或128到512,一般是2的整數次冪。 指數加權平均 vt=βvt−1+(1−
相關文章
相關標籤/搜索