Transformer裏layer-normlization的作用

當我們使用梯度下降法做優化時,隨着網絡深度的增加,數據的分佈會不斷髮生變化,爲了保證數據特徵分佈的穩定性,我們加入Layer Normalization,這樣可以加速模型的收斂速度 Normalization 有很多種,但是它們都有一個共同的目的,那就是把輸入轉化成均值爲 0 方差爲1的數據。我們在把數據送入激活函數之前進行normalization(歸一化),因爲我們不希望輸入數據落在激活函數的
相關文章
相關標籤/搜索