cs231n lecture 16 7.1筆記--更好的優化

時間 2021-01-08

原文原文鏈接

last time: activation function：sigmoid, tanh, relu, leacky relu, maxout, ELU weight initialization：Xavier初始化，MSRA初始化。初始化過小無法學習，過大梯度消失。 data preprocessing：中心化，歸一化。好處是讓loss對參數值中的小擾動不那麼敏感。 batch normaliz

>>阅读原文<<