cs231n lecture 16 7.1筆記--更好的優化

last time: activation function:sigmoid, tanh, relu, leacky relu, maxout, ELU weight initialization:Xavier初始化,MSRA初始化。初始化過小無法學習,過大梯度消失。 data preprocessing:中心化,歸一化。好處是讓loss對參數值中的小擾動不那麼敏感。 batch normaliz
相關文章
相關標籤/搜索