GloVe損失函數的理解

時間 2019-12-14

標籤 glove 損失函數理解简体版

原文原文鏈接

簡介

GloVe是一種很是簡單快速的訓練詞向量的算法。與複雜的word2vec相比，其是一個log雙線性模型，僅經過一個簡單的損失函數就可以獲得很好的結果。算法

\begin{matrix} (1) & J = \sum_{i, j}^{N} f (X_{i, j}) (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2} \end{matrix}

其中， $v_{i}$ 和 $v_{j}$ 是i和j的詞向量， $b_{i}$ 和 $b_{j}$ 是兩個誤差項， $f$ 是一個權重函數，N爲詞彙表大小
可是這個損失函數的意義卻不是很直觀，這裏參照一篇博客寫了一下對於這個損失函數的分析函數

思路

Glove首先會經過設置定義的窗口大小，進行統計獲得詞的共現矩陣。如 $X_{i, j}$ 表示詞 $i$ 和 $j$ 同時出現的次數。共現矩陣是一個 $N \times N$ 的矩陣spa

而後咱們須要計算一些條件機率
定義.net

X_{i} = \sum_{j = 1}^{N} X_{i, j}

P_{i, k} = \frac{X_{i, k}}{X_{i}}

r a t i o_{i, j, k} = \frac{P_{i, k}}{P_{j, k}}

而後咱們分析這裏的ratio會發現一些規律code

因此咱們想到，若是可以經過詞向量 $v_{i}$ , $v_{j}$ 和 $v_{k}$ 獲得類似的規律的，那麼說明咱們的詞向量是很不錯的。即咱們想作的是獲得函數 $g ()$ ，使之知足 orm

r a t i o_{i, j, k} = \frac{P_{i, k}}{P_{j, k}} = g (v_{i}, v_{j}, v_{k})

那麼爲了使兩者儘可能想近，對於損失函數，一個直觀的想法就是MSE，即 xml

\begin{matrix} (2) & J = \sum_{i, j, k}^{N} (\frac{P_{i, k}}{P_{j, k}} - g (v_{i}, v_{j}, v_{k}))^{2} \end{matrix}

不過這裏的計算複雜度是 $N^{3}$ ，過於複雜，咱們須要進一步分析。咱們能夠開始猜測一下 $g (v_{i}, v_{j}, v_{k})$ 是一個什麼樣的形式，由於其衡量了單詞i，j之間的關係，那麼咱們能夠猜測其中含有 $v_{i} - v_{j}$ ，又由於其中還有對k的關係且最終是一個標量，那麼咱們假設其存在一個內積，即 $(v_{i} - v_{j})^{T} v_{k}$
那麼如今咱們有blog

\frac{P_{i, k}}{P_{j, k}} = g (v_{i}, v_{j}, v_{k}) = (v_{i} - v_{j})^{T} v_{k} = v_{i}^{T} v_{k} - v_{j}^{T} v_{k}

能夠看到這裏咱們和上面的損失函數有點相似了，可是仍是缺乏一個 $\exp$ ，咱們能夠加上它看看，即 ip

\frac{P_{i, k}}{P_{j, k}} = \exp (v_{i}^{T} v_{k} - v_{j}^{T} v_{k}) = \frac{\exp (v_{i}^{T} v_{k})}{\exp (v_{j}^{T} v_{k})}

能夠看到，加上 $\exp$ 以後分子分母的形式就徹底同樣了，咱們能夠將其一塊兒考慮，即如今只須要知足ci

P_{i, j} = e x p (v_{i}^{T} v_{j})

兩邊取對數，咱們的損失函數就可以轉化爲

\begin{matrix} (3) & J = \sum_{i, j}^{N} (l o g (P_{i, j}) - v_{i}^{T} v_{j})^{2} \end{matrix}

這個損失函數已經更像一些了，可是仍是不太同樣。這是由於咱們前面是存在一點問題的。根據前面咱們有

l o g (P_{i, j}) = v_{i}^{T} v_{j} 和 l o g (P_{j, i}) = v_{j}^{T} v_{i}

可是實際上，上面的式子右邊是相等的，但左邊並不相等（而且對於這個問題來講，咱們能夠想到target和context實際上是能夠互換的，因此存在對稱），即原有的對稱性不知足了。咱們須要進一步處理一下。咱們將上面(3)的中的條件機率 $l o g (P_{i, j})$ 展開，獲得

l o g (P_{i, j}) = l o g (X_{i, j}) - l o g (X_{i}) = v_{i}^{T} v_{j}

這裏的 $l o g (X_{i})$ 是獨立於j的，因此能夠被吸取進 $b_{i}$ 變爲

l o g (X_{i, j}) = v_{i}^{T} v_{j} + b_{i} + b_{j}

這樣代價函數就變成了

J = \sum_{i, j}^{N} (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2}

而後加上詞頻越高權重越大（共現次數不多的實際上極可能是異常值，而且共現次數少的通常來講含的信息也少）

\begin{matrix} (4) & J = \sum_{i, j}^{N} f (X_{i, j}) (v_{i}^{T} v_{j} + b_{i} + b_{j} - l o g (X_{i, j}))^{2} \end{matrix}

權重函數

f (x) = {\begin{cases} (x / x m a x)^{0.75}, & if x < x m a x \\ 1, & if x >= x m a x \end{cases}

引用

Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.
https://blog.csdn.net/codertc/article/details/73864097