tip:老師語速超快。。。痛苦= =函數
\(Multiclass SVM loss: L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)\)優化
\(Loss = \frac{1}{N} \sum_{i=1}^{N} L_{i}\)spa
Q1: what if the sum was instead over all classes(j = yi)?code
A1:在計算中,咱們能夠知道這個沒有意義,在公式中至關於加上了1,由於yi-yi=0orm
Q2:咱們用平均值來替代求和會怎麼樣?ip
A2:沒有任何意義,只是至關於使得最後損失的計算成倍地縮小。get
Q3:若是公式變成了 $ L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)^{2} $ 會怎麼樣?it
A3:這個公式其實是square hinge loss。第一個公式咱們一般叫作 hinge loss。io
Q4:最大的損失值和最小值是多少?ast
A4:顯然最小就是0,最大是無窮
Q5:當W很小的時候,s都等於0的時候,咱們的loss會是多少?
A5:loss將會是種類數-1
def L_i_vectorized(x,y,W): scores = W.dot(x) margins = np.maximum(0,scores - scores[y] + 1) margins[y] = 0 # margins[y] = 1 loss_i = np.sum(margins) return loss_i
\(f(x,W) = Wx\)
\(L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1)\)
這個loss function其實是有bug,這個可能獲得咱們不想獲得的結果。
好比咱們想找到損失函數爲0的W,是否W是獨一無二?
顯然不是,只要score[y]>1便可……
\(L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1) + \lambda R(W)\)
L2 regularzation \(R(W) = \sum_{k}\sum{l}W_{k,l}^2\)
L1 regularzation \(R(W) = \sum\sum \left | W_{k,l} \right |\)
Elastic net(L1+L2),Max norm regularization,Dropout
加入正則化,使得泛化能力加強。
L2正則化其實是想讓你儘量展開你的W,使得充分的考慮更多的元素。
L1會使得W變得稀疏。
scores = unnormalized log probabilities of the classes
\(L_{i} = -logP(Y = y_{i} | X = x_{i})\)
最大化正確的機率(最小化負的對數機率)
Q1:最大最小的loss是多少?
A1:最小爲0,最大爲無窮,顯然。
Q2:當w很是小,都接近0的時候,loss會是什麼值?
A2:-log(1/n) 顯然