學習率與batch-size大小的關係

近日訓練的電腦從一個顯卡升級到了4張顯卡,這就意味着可以更快的訓練速度,可是實際中,並非這樣的。學習 多卡意味着能夠使用大點的batch-size,這樣子會致使每一個epoch收斂的更慢了,雖說速度變快了,可是更新次數變少了,因此收斂的更慢了。升級 所以應該增大學習率,來保證每個epoch更新的差很少!!!!bat 通常狀況就是batch-size增大K倍,而後學習率增大K倍。。。。
相關文章
相關標籤/搜索