第六講-訓練神經網絡上--課時15--批量歸一化

batch norm 「you want unit gaussian activations? Just make them so」 卷積神經網絡由於需要保留空間信息,對所有batch使用同樣的均值和方差。 普通全連接網絡各個batch使用各自的mean和variance gamma和beta是爲了添加噪聲,具有正則化的作用,它們是學習得到的參數。 gamma和bata使得更flexible,比如
相關文章
相關標籤/搜索