神經網絡訓練經驗

網路介紹:效率 層數太深,變得難訓練,特別是全鏈接層不要超過3層 訓練容易卡在輸出值的均值附近(平坦期) 減小batch size能夠有效跨越訓練的平坦期 最差的GPU運算一半也有最好的cpu運算的10倍效率 用小batch度過平坦期後,也須要加大batchsize。由於當小batch降低到必定程度以後,就一直會震盪了。
相關文章
相關標籤/搜索