深度學習--超參調試-正則化及優化3

超參數調整順序: 隨機取值而不是網格取值,效果更好 alpha取值: beta取值:   Batch normalization:使參數搜索問題變得更容易,使神經網絡對超參數的學習更穩定 思路:對於多層網絡,隱含層在激活函數之前歸一化z[i],使w[i],b[i]更快收斂 每個節點增加了兩個優化變量,因爲我們可能不希望隱藏單元的值必須是均值爲0方差爲1. 比如我們可能不希望z都是在0-1,即位於激
相關文章
相關標籤/搜索