神經網絡訓練技巧討論:爲什麼需要標準化

本文關注:對於神經網絡(主要是全連接網絡+SGD)的學習訓練,標準化有什麼好處(加速收斂),以及爲什麼有這樣的好處。本文觀點大多總結自lecun98年的論文:Efficient BackProp,詳情請參考原論文。翻譯以及總結過程如有疏漏,歡迎指教。另需說明的是:神經網絡模型多變複雜,這裏多是對於一般情況的啓發性討論,實際使用中需要具體情況具體分析(例如圖像領域大多僅減均值,不除方差)。 什麼是標
相關文章
相關標籤/搜索