訓練過程--學習率與權重衰減

學習率   主要是兩個方面:學習率的初始化和學習率的更新   梯度更新的步長就是學習率 學習率初始化   1)ReLu的線性不飽和激活端着相對於Tanh的雙飽和端(經驗規則0.1),肯定要降量級。   2)b的學習率一般爲w的兩倍;   例如Caffe和Alex給的Model基礎都是0.001(W)/0.002(b)。   至於爲什麼Bias的學習率是2倍,猜測是更快抑制Wx加權結果,加速學習。
相關文章
相關標籤/搜索