最近看了下 PyTorch 的損失函數文檔,整理了下本身的理解,從新格式化了公式以下,以便之後查閱。html
注意下面的損失函數都是在單個樣本上計算的,粗體表示向量,不然是標量。向量的維度用
N
表示。java
nn.L1Loss
loss(x,y)=1N∑i=1N|x−y|
nn.SmoothL1Loss
也叫做 Huber Loss,偏差在 (-1,1) 上是平方損失,其餘狀況是 L1 損失。git
loss(x,y)=1N⎧⎩⎨⎪⎪⎪⎪12(xi−yi)2|xi−yi|−12,if |xi−yi|<1otherwise
nn.MSELoss
平方損失函數
github
loss(x,y)=1N∑i=1N|x−y|2
nn.BCELoss
二分類用的交叉熵,TODO數組
loss(o,t)=−1N∑i=1N[ti∗log(oi)+(1−ti)∗log(1−oi)]
nn.CrossEntropyLoss
交叉熵損失函數網絡
loss(x,label)=−logexlabel∑Nj=1exj=−xlabel+log∑j=1Nexj
而
x
是沒有通過 Softmax 的激活值。參考 cs231n 做業裏對 Softmax Loss 的推導。函數
nn.NLLLoss
負對數似然損失函數(Negative Log Likelihood)
google
loss(x,label)=−xlabel
在前面接上一個 LogSoftMax 層就等價於交叉熵損失了。注意這裏的
xlabel
和上個交叉熵損失裏的不同(雖然符號我給寫同樣了),這裏是通過
log
運算後的數值,atom
nn.NLLLoss2d
和上面相似,可是多了幾個維度,通常用在圖片上。
- input, (N, C, H, W)
- target, (N, H, W)
好比用全卷積網絡作 Semantic Segmentation 時,最後圖片的每一個點都會預測一個類別標籤。
nn.KLDivLoss
KL 散度,又叫作相對熵,算的是兩個分佈之間的距離,越類似則越接近零。
loss(x,y)=1N∑i=1N[yi∗(logyi−xi)]
注意這裏的
xi
是
log
機率,剛開始還覺得 API 弄錯了。
nn.MarginRankingLoss
評價類似度的損失
loss(x1,x2,y)=max(0,−y∗(x1−x2)+margin)
這裏的三個都是標量,y 只能取 1 或者 -1,取 1 時表示 x1 比 x2 要大;反之 x2 要大。參數 margin 表示兩個向量至少要相聚 margin 的大小,不然 loss 非負。默認 margin 取零。
nn.MultiMarginLoss
多分類(multi-class)的 Hinge 損失,
loss(x,y)=1N∑i=1,i≠yNmax(0,(margin−xy+xi)p)
其中
1≤y≤N
表示標籤,
p
默認取 1,
margin
默認取 1,也能夠取別的值。參考 cs231n 做業裏對 SVM Loss 的推導。
nn.MultiLabelMarginLoss
多類別(multi-class)多分類(multi-classification)的 Hinge 損失,是上面 MultiMarginLoss 在多類別上的拓展。同時限定 p = 1,margin = 1.
loss(x,y)=1N∑i=1,i≠yjn∑j=1yj≠0[max(0,1−(xyj−xi))]
這個接口有點坑,是直接從 Torch 那裏抄過來的,見 MultiLabelMarginCriterion 的描述。而 Lua 的下標和 Python 不同,前者的數組下標是從 1 開始的,因此用 0 表示佔位符。有幾個坑須要注意,
- 這裏的
x,y
都是大小爲
N
的向量,若是
y
不是向量而是標量,後面的
∑j
就沒有了,所以就退化成上面的 MultiMarginLoss.
- 限制
y
的大小爲
N
,是爲了處理多標籤中標籤個數不一樣的狀況,用 0 表示佔位,該位置和後面的數字都會被認爲不是正確的類。如
y=[5,3,0,0,4]
那麼就會被認爲是屬於類別 5 和 3,而 4 由於在零後面,所以會被忽略。
- 上面的公式和說明只是爲了和文檔保持一致,其實在調用接口的時候,用的是 -1 作佔位符,而 0 是第一個類別。
舉個梨子,
import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y)
按照上面的理解,第 3, 0 個是正確的類,1, 2 不是,那麼,
loss=14∑i=1,2∑j=3,0[max(0,1−(xj−xi))]=14[(1−(0.8−0.2))+(1−(0.1−0.2))+(1−(0.8−0.4))+(1−(0.1−0.4))]=14[0.4+1.1+0.6+1.3]=0.85
*注意這裏推導的第二行,我爲了簡短,都省略了 max(0, x) 符號。
nn.SoftMarginLoss
多標籤二分類問題,這
N
項都是二分類問題,其實就是把
N
個二分類的 loss 加起來,化簡一下。其中
y
只能取
1,−1
兩種,表明正類和負類。和下面的實際上是等價的,只是
y
的形式不一樣。
loss(x,y)=∑i=1Nlog(1+e−yixi)
nn.MultiLabelSoftMarginLoss
上面的多分類版本,根據最大熵的多標籤 one-versue-all 損失,其中
y
只能取
1,−1
兩種,表明正類和負類。
loss(x,y)=−∑i=1N[yilogexi1+exi+(1−yi)log11+exi]
nn.CosineEmbeddingLoss
餘弦類似度的損失,目的是讓兩個向量儘可能相近。注意這兩個向量都是有梯度的。
loss(x,y)={1−cos(x,y)max(0,cos(x,y)+margin)if if y==1y==−1
margin 能夠取
[−1,1]
,可是比較建議取 0-0.5 較好。
nn.HingeEmbeddingLoss
不知道作啥用的。另外文檔裏寫錯了,
x,y
的維度應該是同樣的。
loss(x,y)=1N{ximax(0,margin−xi)if if yi==1yi==−1
nn.TripleMarginLoss
L(a,p,n)=1N(∑i=1Nmax(0, d(ai,pi)−d(ai,ni)+margin))
其中
d(xi,yi)=∥xi−yi∥22