Deep Residual Learning for Image Recognition個人有感

問題:當網絡深度到一定深度後,網絡層數越深,純神經網絡的效果呢,如圖所示? 從理論上來講,神經網絡越深,其學習能力越強;但實際上卻面臨着優化難題;不是梯度消失也不是梯度爆炸導致的,因爲使用了BN;論文作者推斷是因爲深度網絡面臨着隨着層數增加,而出現指數級下降的收斂速度,換句話說,需要非常多的訓練次數;這個優化難題留在未來解決; 作者設計了兩個網絡,一個是較淺的神經網絡結構,另一個較深的神經網絡結構
相關文章
相關標籤/搜索