[pytorch]pytorch loss function 總結

時間 2019-12-15

標籤 pytorch loss function 總結简体版

原文原文鏈接

原文： http://www.voidcn.com/article/p-rtzqgqkz-bpg.htmljavascript

最近看了下 PyTorch 的損失函數文檔，整理了下本身的理解，從新格式化了公式以下，以便之後查閱。html

注意下面的損失函數都是在單個樣本上計算的，粗體表示向量，不然是標量。向量的維度用 N 表示。java

nn.L1Loss

loss (x, y) = 1 N \sum i = 1 N | x - y |

nn.SmoothL1Loss

也叫做 Huber Loss，偏差在 (-1,1) 上是平方損失，其餘狀況是 L1 損失。git

loss (x, y) = 1 N ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1 2 (x i - y i) 2 | x i - y i | - 1 2, if | x i - y i | < 1 otherwise

nn.MSELoss

平方損失函數
github

loss (x, y) = 1 N \sum i = 1 N | x - y | 2

nn.BCELoss

二分類用的交叉熵，TODO數組

loss (o, t) = - 1 N \sum i = 1 N [t i * log (o i) + (1 - t i) * log (1 - o i)]

nn.CrossEntropyLoss

交叉熵損失函數網絡

loss (x, label) = - log e x label \sum N j = 1 e x j = - x label + log \sum j = 1 N e x j

而 x 是沒有通過 Softmax 的激活值。參考 cs231n 做業裏對 Softmax Loss 的推導。函數

nn.NLLLoss

負對數似然損失函數（Negative Log Likelihood）
google

loss (x, label) = - x label

在前面接上一個 LogSoftMax 層就等價於交叉熵損失了。注意這裏的 xlabel 和上個交叉熵損失裏的不同（雖然符號我給寫同樣了），這裏是通過 log 運算後的數值，atom

nn.NLLLoss2d

和上面相似，可是多了幾個維度，通常用在圖片上。

input, (N, C, H, W)
target, (N, H, W)

好比用全卷積網絡作 Semantic Segmentation 時，最後圖片的每一個點都會預測一個類別標籤。

nn.KLDivLoss

KL 散度，又叫作相對熵，算的是兩個分佈之間的距離，越類似則越接近零。

loss (x, y) = 1 N \sum i = 1 N [y i * (log y i - x i)]

注意這裏的 xi 是 log 機率，剛開始還覺得 API 弄錯了。

nn.MarginRankingLoss

評價類似度的損失

loss (x 1, x 2, y) = max (0, - y * (x 1 - x 2) + margin)

這裏的三個都是標量，y 只能取 1 或者 -1，取 1 時表示 x1 比 x2 要大；反之 x2 要大。參數 margin 表示兩個向量至少要相聚 margin 的大小，不然 loss 非負。默認 margin 取零。

nn.MultiMarginLoss

多分類（multi-class）的 Hinge 損失，

loss (x, y) = 1 N \sum i = 1, i \neq y N max (0, (margin - x y + x i) p)

其中 1≤y≤N 表示標籤， p 默認取 1， margin 默認取 1，也能夠取別的值。參考 cs231n 做業裏對 SVM Loss 的推導。

nn.MultiLabelMarginLoss

多類別（multi-class）多分類（multi-classification）的 Hinge 損失，是上面 MultiMarginLoss 在多類別上的拓展。同時限定 p = 1，margin = 1.

loss (x, y) = 1 N \sum i = 1, i \neq y j n \sum j = 1 y j \neq 0 [max (0, 1 - (x y j - x i))]

這個接口有點坑，是直接從 Torch 那裏抄過來的，見 MultiLabelMarginCriterion 的描述。而 Lua 的下標和 Python 不同，前者的數組下標是從 1 開始的，因此用 0 表示佔位符。有幾個坑須要注意，

這裏的 x,y 都是大小爲 N 的向量，若是 y 不是向量而是標量，後面的 ∑j 就沒有了，所以就退化成上面的 MultiMarginLoss.
限制 y 的大小爲 N ，是爲了處理多標籤中標籤個數不一樣的狀況，用 0 表示佔位，該位置和後面的數字都會被認爲不是正確的類。如 y=[5,3,0,0,4] 那麼就會被認爲是屬於類別 5 和 3，而 4 由於在零後面，所以會被忽略。
上面的公式和說明只是爲了和文檔保持一致，其實在調用接口的時候，用的是 -1 作佔位符，而 0 是第一個類別。

舉個梨子，

import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y) # will give 0.8500