深度學習網絡訓練中出現loss函數爲nan的原因

說法一: 說明訓練不收斂了, 學習率太大,步子邁的太大導致梯度爆炸等都是有可能的,另外也有可能是網絡的問題,網絡結構設計的有問題。 我現在的採用方式是: 1. 弱化場景,將你的樣本簡化,各個學習率等參數採用典型配置,比如10萬樣本都是同一張複製的,讓這個網絡去擬合,如果有問題,則是網絡的問題。否則則是各個參數的問題。 2. 如果是網絡的問題,則通過不斷加大樣本的複雜度和調整網絡(調整擬合能力)來改
相關文章
相關標籤/搜索