Task 6 打卡 批量歸一化和殘差網絡;凸優化;梯度下降

關於BN 層,這篇文章講的比較清楚 https://zhuanlan.zhihu.com/p/34879333 BN層一是爲了避免神經網絡層與層之間數據的分佈差別太大,於是將特徵的分佈處理成正態分佈;但同時,不同特徵本身的差異也是數據的信息之一,因此又訓練了兩個參數,試圖還原一部分特徵之間的差異。 關於殘差網絡 https://zhuanlan.zhihu.com/p/80226180 然後題目中
相關文章
相關標籤/搜索