Perturbed Masking：和參數無關的預訓練模型分析方法

©PaperWeekly 原創 · 做者｜蔡傑
git

學校｜北京大學碩士生github

研究方向｜問答系統算法

論文標題：api

Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT微信

論文來源：網絡

ACL 2020函數

論文連接：性能

https://arxiv.org/abs/2004.14786學習

代碼連接：人工智能

https://github.com/Frank-Smith/Perturbed-Masking

引言

本文是一篇分析 BERT 模型的文章。一般分析 BERT 的時候研究人員會設計一些 probing 任務，並經過 BERT 的每一層參數來嘗試解決這些任務，若是某一層可以很好的解決某一任務，那就說明 BERT 在這一層是學到了和該任務相關的語言學信息的。

probing 任務一般被設計爲一個簡單的神經網絡（好比分類任務一般在 BERT 後接一層的 FFN），可是這種作法有個問題：咱們沒法肯定究竟是 BERT 自己，仍是添加的簡單神經網絡學到了這些相關的信息，該作法反而增長了模型可解釋的難度。

論文貢獻

做者提出了一種和參數無關的分析預訓練模型的方法：Perturbed Masking，該方法可以分析預訓練模型中詞與詞之間的關係，使全局的句法信息提取成爲可能。

做者在多個 NLP 任務中驗證了他們方法的有效性（e.g., syntactic parsing, discourse dependency parsing）。

做者還將他們從預訓練模型中提取出來的句法結構應用到下游任務中，發現做者他們提取句法信息的性能與解析器建立的句法信息至關、甚至更好。這爲發掘 BERT 在下游任務上取得的成功提供了一個視角。

Perturbed Masking

做者提出了利用擾動掩蔽技術（Perturbed Masking）來評估 MLM 中一個詞對另外一個詞的影響。

3.1 BERT

BERT 用了兩個預訓練任務：MLM 和 NSP。講講和本文有關的 MLM（Mask Language Model），一句話中隨機選擇 15% 的 word 做爲替換的候選 word，這些候選的 word 中又分爲如下三種狀況：

80% 的機率替換爲 [MASK] 標記
10% 的機率用隨機選擇的一個詞替換
10% 的機率保持不變

而 bert 要作的就是去預測那些被替換爲 [MASK] 標記的 word 原來是什麼 word。

3.2 Token Perturbation

做者的目的是找到一個可以建模兩個 word 之間的函數。做者把 mask 了第 i 個 word 的句子表示爲，把 mask 了第 j 個 word 的句子表示爲，而後把 [MASK] 位置對應的 embedding 做爲這個 word 的表示。

爲了找到第 j 個詞對預測第i個詞的影響，做者在 mask 了第 i 個詞的句子的基礎上又 mask 了第 j 個詞，整句變成了。

兩個 word 之間的函數表示爲：

上圖中的就是對應的 embedding 函數，d 有如下兩種：

第一種 Dist 就是計算兩個 embedding 之間的歐式距離。第二種 Prob 須要先把 embedding 映射成關於詞表的一個分佈，而後對於同一個詞的機率相減。

經過重複以上方法，能夠獲得一個 Impact Matrix，從這個矩陣中咱們就能夠獲得句法樹。

做者還提到由於 bert 使用的 BPE 算法，致使一些詞會被切分紅 sub-words。sub-words 的影響有兩個維度，第一種狀況是被切成了 sub-words，做者認爲中的每一個部分對的影響都是相同的，因此就只取了的第一個 sub-word 來計算對的影響。第二種狀況就是被切成了 sub-words，在這裏是取了對的每個 sub-word 的影響的平均值。

3.3 Span Perturbation

做者在 token-level 以後，還擴展到了 span-level（包括短語、句子和段落）。

採用的方法和 3.2 是一致的，不同的地方在於將句子替換爲文檔，句子中的 token 替換爲（短語、句子或段落）。

Visualization with Impact Maps

做者從 CoNLL 2017 共享任務的 PUD treebank 數據集中向 BERT 輸入了 1000 個句子，從而提取 Impact Matrix 。圖 1 展現了一個示例矩陣。

從圖中咱們能夠注意到矩陣圖包含許多位於對角線上的深色條紋。以 different 一詞爲例(倒數第二列)。在主對角線上觀察到一條清晰的垂直深色條紋。做者對此的解釋是， different 這個詞的出現劇烈地影響了它以前那些詞的出現。

這些劇烈的影響體如今上圖的倒數第二列中所見的深色像素。這個觀察結果與ground-truth的依賴樹一致，它選擇 different 做爲短語 This will be a little different 中全部剩餘單詞的頭。這種狀況在 transition 和 hill 中也有相似的模式。

根據圖一的 Matrix，做者抽取出來的句法樹，能夠看到效果仍是很不錯的。

沿着影響圖的對角線，咱們還能夠看到單詞被分紅四個連續的具備特定意圖的塊（例如，一個名詞短語 on Capitol Hill）。咱們還能夠觀察到，中間的兩個詞塊有相對緊密的詞塊之間的聯繫，所以把他們組在一塊兒，能夠造成一個更大的動詞短語。這一觀察代表，BERT 能夠捕捉到語言的組合性。

總結

綜上所述，做者提出了一種無參數探測技術來補充目前經過 prob methods 來解釋 BERT 的工做。經過精心設計的兩階段的擾動 mask 機制，能夠獲得了 BERT 的 Impact Matrix。這個矩陣反映了捕捉詞間關聯的注意機制的功能，做者還設計了算法能夠從這個矩陣中提取出句法樹。

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許能夠成爲一座橋樑，促使不一樣背景、不一樣方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或我的，在咱們的平臺上分享各種優質內容，能夠是最新論文解讀，也能夠是學習心得或技術乾貨。咱們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係我的原創做品，來稿需註明做者我的信息（姓名+學校/工做單位+學歷/職位+研究方向）

• 若是文章並不是首發，請在投稿時提醒並附上全部已發佈連接

• PaperWeekly 默認每篇文章都是首發，均會添加「原創」標誌

???? 投稿郵箱：

• 投稿郵箱：hr@paperweekly.site

• 全部文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便咱們在編輯發佈時和做者溝通

????

如今，在「知乎」也能找到咱們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱咱們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。若是你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。