cs331n 線性分類器損失函數與最優化

時間 2019-11-05

標籤 cs331n 線性分類器損失函數最優化欄目應用數學简体版

原文原文鏈接

tip:老師語速超快。。。痛苦= =函數

線性分類器損失函數與最優化

$Multiclass SVM loss: L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)$優化

$Loss = \frac{1}{N} \sum_{i=1}^{N} L_{i}$spa

Q1: what if the sum was instead over all classes(j = yi)?code

A1:在計算中，咱們能夠知道這個沒有意義，在公式中至關於加上了1，由於yi-yi=0orm

Q2:咱們用平均值來替代求和會怎麼樣？ip

A2:沒有任何意義，只是至關於使得最後損失的計算成倍地縮小。get

Q3:若是公式變成了 $ L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y_{i}}+1)^{2} $ 會怎麼樣？it

A3:這個公式其實是square hinge loss。第一個公式咱們一般叫作 hinge loss。io

Q4:最大的損失值和最小值是多少？ast

A4:顯然最小就是0，最大是無窮

Q5:當W很小的時候，s都等於0的時候，咱們的loss會是多少？

A5:loss將會是種類數-1

code:

def L_i_vectorized(x,y,W):
    scores = W.dot(x)
    margins = np.maximum(0,scores - scores[y] + 1)
    margins[y] = 0 # margins[y] = 1
    loss_i = np.sum(margins)
    return loss_i

$f(x,W) = Wx$

$L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1)$

這個loss function其實是有bug，這個可能獲得咱們不想獲得的結果。

好比咱們想找到損失函數爲0的W，是否W是獨一無二？

顯然不是，只要score[y]>1便可……

Weight Regularization

$L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j!=y_{i}} max(0,f(x_{i};W)_{j} - f(x_{i};W)_{y-{i}} +1) + \lambda R(W)$

L2 regularzation $R(W) = \sum_{k}\sum{l}W_{k,l}^2$

L1 regularzation $R(W) = \sum\sum \left | W_{k,l} \right |$

Elastic net(L1+L2),Max norm regularization,Dropout

加入正則化，使得泛化能力加強。

L2正則化其實是想讓你儘量展開你的W，使得充分的考慮更多的元素。

L1會使得W變得稀疏。

Softmax Classifier(Multinomial Logistic Regression)

scores = unnormalized log probabilities of the classes

$L_{i} = -logP(Y = y_{i} | X = x_{i})$

最大化正確的機率（最小化負的對數機率）

Q1:最大最小的loss是多少？

A1:最小爲0，最大爲無窮，顯然。

Q2:當w很是小，都接近0的時候，loss會是什麼值？

A2:-log(1/n) 顯然

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。