cs331n 線性分類器損失函數與最優化

tip:老師語速超快。。。痛苦= =函數

線性分類器損失函數與最優化

\(Multiclass SVM loss: L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)\)優化

\(Loss = \frac{1}{N} \sum_{i=1}^{N} L_{i}\)spa

Q1: what if the sum was instead over all classes(j = yi)?code

A1:在計算中,咱們能夠知道這個沒有意義,在公式中至關於加上了1,由於yi-yi=0orm

Q2:咱們用平均值來替代求和會怎麼樣?ip

A2:沒有任何意義,只是至關於使得最後損失的計算成倍地縮小。get

Q3:若是公式變成了 $ L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)^{2} $ 會怎麼樣?it

A3:這個公式其實是square hinge loss。第一個公式咱們一般叫作 hinge loss。io

Q4:最大的損失值和最小值是多少?ast

A4:顯然最小就是0,最大是無窮

Q5:當W很小的時候,s都等於0的時候,咱們的loss會是多少?

A5:loss將會是種類數-1

code:
def L_i_vectorized(x,y,W):
    scores = W.dot(x)
    margins = np.maximum(0,scores - scores[y] + 1)
    margins[y] = 0 # margins[y] = 1
    loss_i = np.sum(margins)
    return loss_i

\(f(x,W) = Wx\)

\(L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1)\)

這個loss function其實是有bug,這個可能獲得咱們不想獲得的結果。

好比咱們想找到損失函數爲0的W,是否W是獨一無二?

顯然不是,只要score[y]>1便可……

Weight Regularization

\(L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1) + \lambda R(W)\)

L2 regularzation \(R(W) = \sum_{k}\sum{l}W_{k,l}^2\)

L1 regularzation \(R(W) = \sum\sum \left | W_{k,l} \right |\)

Elastic net(L1+L2),Max norm regularization,Dropout

加入正則化,使得泛化能力加強。

L2正則化其實是想讓你儘量展開你的W,使得充分的考慮更多的元素。

L1會使得W變得稀疏。

Softmax Classifier(Multinomial Logistic Regression)

scores = unnormalized log probabilities of the classes

\(L_{i} = -logP(Y = y_{i} | X = x_{i})\)

最大化正確的機率(最小化負的對數機率)

Q1:最大最小的loss是多少?

A1:最小爲0,最大爲無窮,顯然。

Q2:當w很是小,都接近0的時候,loss會是什麼值?

A2:-log(1/n) 顯然

相關文章
相關標籤/搜索