深層神經網絡

深層神經網絡求梯度的大致過程: 偏差和方差: 過擬合措施(正則化): w是參數矩陣 L2正則化又稱爲權重衰減,w的矩陣乘了一個比1小的數,在進行同之前的梯度遞減,所以整個過程又稱爲「權重衰減」。 原因:lamda足夠大,則w接近0,直觀理解就是把多個隱藏單元的權重設置爲零,於是消除了這些影響,網絡得以簡化. 過擬合措施(dropout): 每層的keep.prob可以設置不同值,對於w比較大的容易
相關文章
相關標籤/搜索