BERT模型總結

時間 2020-02-04

標籤 bert 模型總結简体版

原文原文鏈接

BERT模型總結

前言

BERT是在Google論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中被提出的，是一個面向NLP的無監督預訓練模型，並在多達11個任務上取得了優秀的結果。這個模型的最大意義是使得NLP任務能夠向CV同樣使用與訓練模型，這極大的方便了一個新的任務開始，由於在NLP領域，海量數據的獲取仍是有難度的。git

模型概述：BERT是一個無監督的NLP與訓練模型，結構上是Transformer的編碼部分，每一個block主要由多頭self-Attention、標準化(Norm)、殘差鏈接、Feed Fordawrd組成。在具體任務中，主要分爲模型預訓練和模型微調兩個階段。在模型預訓練階段，由於模型參數巨大，一般是上千萬乃至上億的數量級，因此須要大量的數據訓練，所幸這時候模型是無監督的，只須要爬取或使用開源數據集便可；在模型微調階段，須要針對具體的任務來微調模型，已達到較好的效果。github

1. 模型總體結構

Bert就是Transformer的編碼部分，下圖是Transformer的具體結構：npm

上圖左側爲Transformer的編碼部分，右側爲Transformer的解碼部分，本文主要以編碼部分詳細講解Bert的結構。左側的編碼部分包括輸入，添加位置編碼，以self-Attention、Add&Norm、Feed Fordward的block。下面就每一個具體細節進行具體分析。網絡

2. 位置編碼

位置編碼是用來捕獲文本之間的時序關聯性的，例如打開如今熱度第一的新聞的第一句話：「重慶主城區一棟30層的居民樓發生大火，形成百餘名羣衆被困，重慶市政府迅速調集消防、公安、衛生等數百名人員趕赴現場施救。」其中，「重慶市」與「主城區」相關度最高，位置最近。當對NLP文本處理時，位置更近的文本通常相關性更大，因此將位置編碼融入到數據中是頗有必要的。須要要說明的是與Bert這種所有基於Attention不一樣的是，以前基於RNN的模型在模型結構上已經能夠將這種時序信息考慮在內。koa

在具體處理方式上，採用的是Embedding+Positional的方法，將數據之間的關聯性融入到數據中。Embedding是嵌入到相應維度的文本數據，Positional在論文中使用了$sine$和$cosine$函數的線性變換來提供模型的位置信息，公式以下：
\[ PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})\\PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}}) \tag{1} \]
那爲什麼加了位置編碼就能獲取數據間位置的特徵呢？在self-attention的結構中，在對每維數據計算權重時，是採用點積的形式，本質上就是計算向量之間的相關性。而位置編碼將臨近的數據加上頻率接近的位置編碼，就是增長了相鄰數據的相關性。下圖是位置編碼向量的熱圖，能夠看出距離越近，頻率就更加接近。jvm

3. self-Attention

self-attention是BERT的重要思想，其與位置編碼結合，解決了文本數據的時序相關性的問題，從而一舉結束了依靠RNN、LSTM、GRU等以前一直用來解決時序問題的網絡模型。self-attention通俗的說就是信息向前傳播時動態的計算權重的一種方式，與CNN常見的MaxPooling、MeanPooling不一樣的是，attention模型是通過訓練，當不一樣信息傳入時，自動的調整權重的一種結構。self-attention的具體結構以下圖所示：
函數

具體的，將上圖的過程進行詳細的解釋，主要是拆分紅4個步驟：

1）$x^1, x^2, x^3, x^4$表明的是通過embedding的4條時序文本信息，首先將4條信息加上位置向量，獲得$a^1, a^2,a^3, a^4$，這樣作的目的上文已經說過，是爲了獲取文本的時序相關性。ui

2) 對每條信息分配三個權重$W_Q, W_K, W_V (embed.dim*embed.dim)$，分別與$a^1, a^2, a^3, a^4$相乘後造成3個矩陣$Q, K, V$也就是上圖的$q^i, k^i, v^i$。
\[ Q = Linear(a^1) = a^iW^Q\\ K = Linear(a^1) = a^iW^K \\ V = Linear(a^1) = a^iW^V \]
3) 將$q_1$分別與$k^1, k^2, ...,k^i$點乘，獲得$\alpha_{1, i}$，再有softmax的計算公式，計算得$\hat\alpha_{1, i}$。
\[ \alpha_{1, i} = q^1*k^i\\ \hat\alpha_{1, i} = exp(\alpha_{1, i})/\sum_j{exp(\alpha_{1, j})} \]
4）最後按照softmax輸出的權重對$V$進行加權，計算得$b^1$。使用一樣的方法計算得$b^2, b^3, ...,b^i$。將$b^1, b^2, b^3, ...,b^i$進行合併，完成self-attention。
\[ b^1 = \sum_i\hat{\hat\alpha_{1, i}*v^i} \]編碼

4. 殘差鏈接

殘差鏈接是訓練深層模型時慣用的方法，主要是爲了不模型較深時，在進行反向傳播時，梯度消失等問題。具體實現時，當網絡進行前向傳播時，不只僅時按照網絡層數進行逐層傳播，還會由當前層隔一層或多層向前傳播，以下圖所示：spa

5. 模型實現

以上是BERT的總體結構，Input輸入的是文本數據，通過Embedding加上位置向量Positional Encoding。Multi-Head Atention爲多頭的self-Attention，實際上就是將self-attention的Q、K、V均分紅n份，分別進行計算。Add&Norm爲殘差計算和標準化；Feedward爲全鏈接層，進行前向傳播。其中$N_x$爲基本單元的個數，是能夠條調整的超參數。

6. Bert模型預訓練策略

在預訓練Bert模型時，論文提供了兩種策略：

(1) Masked LM

在BERT中, Masked LM(Masked language Model)構建了語言模型, 這也是BERT的預訓練中任務之一, 簡單來講, 就是隨機遮蓋或替換一句話裏面任意字或詞, 而後讓模型經過上下文的理解預測那一個被遮蓋或替換的部分, 以後作的時候只計算被遮蓋部分的, 實際上是一個很容易理解的任務, 實際操做方式以下:

隨機把一句話中的替換成如下內容:
1) 這些有的概率被替換成;
2) 有 $10 \%$ 的概率被替換成任意一個其餘的;
3) 有 $10 \%$ 的概率原封不動.
以後讓模型預測和還原被遮蓋掉或替換掉的部分, 模型最終輸出的隱藏層的計算結果的維度是:
$X_{hidden}: [batch\_size, \ seq\_len, \ embedding\_dim]$
咱們初始化一個映射層的權重 $W_{vocab}$ :
$W_{vocab}: [embedding\_dim, \ vocab\_size]$
咱們用 $W_{vocab}$ 完成隱藏維度到字向量數量的映射, 只要求 $X_{hidden}$ 和 $W_{vocab}$ 的矩陣乘(點積):
$X_{hidden}W_{vocab}: [batch_size, seq_len, vocab_size]$ 以後把上面的計算結果在 $vocab\_size$ (最後一個)維度作歸一化, 是每一個字對應的 $vocab\_size$ 的和爲, 咱們就能夠經過 $vocab\_size$ 裏機率最大的字來獲得模型的預測結果, 就能夠和咱們準備好的作損失()並反傳梯度了.
注意作損失的時候, 只計算在第1步裏當句中隨機遮蓋或替換的部分, 其他部分不作損失, 對於其餘部分, 模型輸出什麼東西, 咱們不在乎.

(2) Next Sentence Predict(NSP)

首先咱們拿到屬於上下文的一對句子, 也就是兩個句子, 以後咱們要在這兩段連續的句子裏面加一些特殊:$[cls]$上一句話，$[sep]$下一句話$[sep]$。
也就是在句子開頭加一個, 在兩句話之中和句末加, 具體地就像下圖同樣:

咱們看到上圖中兩句話是 my dog is cute he likes playing , 個人狗很可愛他喜歡玩耍, 除此以外, 咱們還要準備一樣格式的兩句話, 但他們不屬於上下文關係的狀況;
個人狗很可愛企鵝不擅長飛行, 可見這屬於上下句不屬於上下文關係的狀況;
在實際的訓練中, 咱們讓上面兩種狀況出現的比例爲, 也就是一半的時間輸出的文本屬於上下文關係, 一半時間不是.
咱們進行完上述步驟以後, 還要隨機初始化一個可訓練的 $segment \ embeddings$ , 見上圖中, 做用就是用的信息讓模型分開上下句, 咱們一把給上句全的, 下句啊全的, 讓模型得以判斷上下句的起止位置, 例如:
個人狗很可愛企鵝不擅長飛行
$0 \quad 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1$
上面和就是 $segment \ embeddings$ .
還記得咱們上節課說過的, 注意力機制就是, 讓每句話中的每個字對應的那一條向量裏, 都融入這句話全部字的信息, 那麼咱們在最終隱藏層的計算結果裏, 只要取出所對應的一條向量, 裏面就含有整個句子的信息, 由於咱們指望這個句子裏面全部信息都會往所對應的一條向量裏彙總:
模型最終輸出的隱藏層的計算結果的維度是:
咱們 $X_{hidden}: [batch\_size, \ seq\_len, \ embedding\_dim]$
咱們要取出所對應的一條向量, 對應着 $\ seq\_len$ 維度的第條:
$cls\_vector = X_{hidden}[:, \ 0, \ :]$
$cls\_vector \in \mathbb{R}^{batch\_size, \ embedding\_dim}$
以後咱們再初始化一個權重, 完成從 $embedding\_dim$ 維度到的映射, 也就是邏輯迴歸, 以後用函數激活, 就獲得了而分類問題的推斷.
咱們用 $\hat{y}$ 來表示模型的輸出的推斷, 他的值介於 $(0, \ 1)$ 之間:
$\hat{y} = sigmoid(Linear(cls\_vector)) \quad \hat{y} \in (0, \ 1)$

參考內容：

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[3] https://github.com/aespresso/a_journey_into_math_of_ml

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。