1. Learning rate不合適,若是太大,會形成不收斂,若是過小,會形成收斂速度很是慢;網絡
2. Batch size太大,陷入到局部最優;spa
3. 網絡太簡單,通常狀況下,網絡的層數和節點數量越大,擬合能力就越強,若是層數和節點不夠多,沒法擬合複雜的數據,也會形成不收斂.數據