深度學習小trick收集

梯度消失/梯度爆炸的解決方案 首先,梯度消失與梯度爆炸的根本原因是基於bp的反向傳播算法 且上述的反向傳播錯誤小於1/4 總的來說就是,更新w和b的時候,更新的步長與learningrate成正比,當所處的層數越淺,每層的w的值和反向傳播錯誤的值乘的愈多,導致w和b更新的步長收到很大影響,最終導致梯度爆炸或者梯度消失。這時候深度網絡並不能比千層網絡性能好。後面基層學習情況好,而淺層網絡則學不到東西
相關文章
相關標籤/搜索