下圖中的須要tune的parameter的前後順序, 紅色>黃色>紫色,其餘基本不會tune.算法
先講到怎麼選hyperparameter, 須要隨機選取(sampling at random) app
隨機選取的過程當中,能夠採用從粗到細的方法逐步肯定參數dom
有些參數能夠按照線性隨機選取, 好比 n[l]google
可是有些參數就不適合線性的sampling at radom, 好比 learning rate α,這時能夠用 log3d
Andrew 很幽默的講到了兩種選參數的實際場景 pandas vs caviar. pandas approach 通常用在你的算力不夠時候,要持續幾天的training.orm
咱們知道對input layer 作 normalizing, 其實對每一層的輸入均可以作normalizing, 這就是 batch norm. 作batch norm 時,有對 activation後的結果作norm 的,也有對activation 前的結果 z 作batch norm 的,這裏講的是後一種,對z 作norm.blog
爲何Batch Norm 起做用呢?ci
先看下下面圖講到的convariate shift,若是traing set 的distribution 變了,就應該從新train model. 一樣,對NN的每一層也有相似的問題.get
Andrew講到batch norm 是爲了儘可能使得不一樣layer decouple,這樣相互影響就要小一點,整個NN比較穩定.input
Batch norm 還有regularization 的做用,可是這個算法主要不是作這個的. 不建議專門用它來作regularization.
對 test set 求 μ, σ2, 採用了不同的方法,就是基於簽名mini-batch set 求出來的μ, σ2 應用exponetially weighted average 求平均值. 它和logistic regression 同樣,decision boudary 是線性的.
Softmax regression 就是 logistic regression 的generaliazation 版本, 它能夠用在multi-class clarification 問題上。和logistic regression 同樣,decision boudary 都是線性的. 若是要使得decison boudary 是非線性的就須要deep network.
TensorFlow by google, an example
Ref:
Batch Normalization: 批標準化(Batch Normalization )