神經網絡模型loss不收斂、不下降問題彙總

一、模型不收斂 主要有以下幾個原因: 1.learning rate設大了會帶來跑飛(loss突然一直很大)的問題 這個是新手最常見的情況——爲啥網絡跑着跑着看着要收斂了結果突然飛了呢?可能性最大的原因是你用了relu作爲激活函數的同時使用了softmax或者帶有exp的函數做分類層的loss函數。當某一次訓練傳到最後一層的時候,某一節點激活過度(比如100),那麼exp(100)=Inf,發生溢
相關文章
相關標籤/搜索