北大旁聽 - 深刻Loss Function的來源

時間 2019-11-10

標籤北大旁聽深刻 loss function 來源简体版

原文原文鏈接

1. 想法

因爲有朋友在北大，很高興能蹭到深度學習的課程，李戈教授的課程十分精彩，比起只會念PPT的老師，他的教學就像在堆積知識的金字塔。算法

2. Loss Function

2.1 經典統計 vs 深度學習 vs 貝葉斯統計

機率論分爲兩大學派，貝葉斯學派認爲先驗知識很重要，而經典統計學派就是純粹的看統計信息。網絡

如今的深度學習最大的優勢就是在數據擬合上表現很是好，但最大的缺點就是它的不可解釋性。session

在一篇論文：Deep Learning: A Bayesian Perspective 中提到，目前深度學習算法取得好效果的主要緣由歸功於ReLU、learning_rate、Dropout。app

實際上先驗知識只是以網絡的模型結構的方式呈現的（包括Loss Function的設計等）。ide

2.2 最大似然估計

其實目前大部分使用的損失函數都是以最大似然原理爲核心而設計的。函數

深度學習的核心問題就是讓網絡產生的數據分佈儘量貼近樣本分佈，因此極大似然原理就很天然的用在了深度學習上。學習

而要評判分佈的「差異」，首先須要能夠評判分佈的指標，而這個指標就是香農的信息熵。spa

有了評價指標後，咱們還不急着對比，由於要計算信息熵，須要知道樣本的真實分佈和機率密度。在計算模型分佈的信息熵時，此時就不叫信息熵了，而稱爲交叉熵，這也就是所謂的cross-entropy（而不是你們常見的1-log(x)）。設計

Many authors use the term "cross-entropy" to identify specifically the negative log-likelihood of a Bernoulli or softmax distribution, but that is a misnomer.

根據Gibbs不等式，有：E(P, Q) >= E(P)，其實很好解釋，用模擬出來的機率密度去計算真實分佈的信息熵，確定是比較混亂的（相對於真實機率密度計算真實分佈的信息熵）。3d

有了交叉熵和原分佈的信息熵後，咱們作差，就能獲得相對熵（又稱KL散度）。

終於，咱們獲得了相對熵，能夠評判分佈的「差異」後，咱們就能夠用一個視角來看Loss Function：

Loss Function 用於計算模型輸出數據與樣本數據之間的「差異」。
Loss Function 體現了人們對這種「差異」進行度量時所依賴的先驗知識。
幾種常見的「差異」度量方法
- 個體模型結果與樣本數據之間的「距離」。
- 多個模型結果與樣本數據之間存在數據分佈上的差異。
- 經過分析"統計距離「（Statistical Distance）來設計Loss。

好了，讓咱們回到最大似然原理上，爲了讓模型分佈儘量貼近樣本分佈，那麼咱們要解決的問題就是最小化KL散度