訓練過程--學習率與權重衰減

時間 2020-12-20

原文原文鏈接

學習率主要是兩個方面：學習率的初始化和學習率的更新梯度更新的步長就是學習率學習率初始化 1）ReLu的線性不飽和激活端着相對於Tanh的雙飽和端（經驗規則0.1），肯定要降量級。 2）b的學習率一般爲w的兩倍；例如Caffe和Alex給的Model基礎都是0.001(W)/0.002(b)。至於爲什麼Bias的學習率是2倍，猜測是更快抑制Wx加權結果，加速學習。

>>阅读原文<<