NLP中的遷移學習教程來啦！（238頁PPT下載）

時間 2019-12-08

標籤 nlp 遷移學習教程 ppt 下載欄目 Microsoft Office 简体版

原文原文鏈接

文章發佈於公號【數智物語】（ID：decision_engine），關注公號不錯過每一篇乾貨。算法

來源 | 新智元(AI_era)網絡

近日，在美國明尼蘇達州明尼阿波利斯的 NAACL2019 上， Sebastian Ruder, Matthew Peters, Swabha Swayamdipta 和 Thomas Wolf 分享了一個長達 238 頁 PPT 關於「NLP中的遷移學習」的教程，今天拿來和你們分享。框架

經典的監督機器學習範式是基於對使用單個數據集的任務的單個預測模型的孤立學習。這種方法須要大量的訓練示例，而且對於定義明確、範圍狹窄的任務效果最好。遷移學習指的是一組方法，這些方法經過利用來自其餘域或任務的數據來訓練具備更好泛化特性的模型來擴展此方法。機器學習

近兩年來，天然語言處理(NLP)領域出現了幾種轉移學習方法和體系結構，這些方法和體系結構大大提升了 NLP 任務的先進性。工具

這些改進，加上這些方法的普遍可用性和易集成性，令人們想起了致使計算機視覺中預訓練字嵌入和 ImageNet 預訓練成功的因素，並代表這些方法極可能成爲 NLP 中的一種經常使用工具以及一個重要的研究方向。學習

咱們將概述 NLP 中的現代遷移學習方法，如何對模型進行預培訓，它們所學習的表示捕獲哪些信息，並回顧有關如何在下游 NLP 任務中集成和適應這些模型的示例和案例研究。spa

01什麼是遷移學習？翻譯

(a)傳統機器學習的學習過程：blog

任務1：學習系統教程

任務2：學習系統

任務3：學習系統

(b)遷移學習的學習過程：

源任務：知識

目標任務：學習系統

02爲何是NLP遷移學習？

1. 許多 NLP 任務都有共同的語言知識（例如語言表示、結構類似性）

2. 任務能夠互相通知，例如語法和語義

3. 註釋數據不多，儘量多地利用監督

4. 從經驗上講，遷移學習已經在 SOTA 造成了許多被監督的 NLP 任務（例如分類、信息提取、問答等）

爲何是NLP遷移學習？（憑經驗）

在命名實體識別(NER)CONLL-2003（英語）上隨着時間推移的表現。

NLP 中遷移學習的類型

03本教程到底講什麼？

本教程講的是什麼，不講的是什麼：

1. 目標：提供 NLP 中遷移方法的普遍概述，重點介紹截至目前（ 2019 年年中）最成功的經驗方法

2. 提供實用的、實際操做的建議→在教程結束時，每一個人都有能力將最新進展應用到文本分類任務中

3. 不講的是什麼：全面的（不可能在一個教程中涵蓋全部相關的論文！）

4. （Bender Rule: 本教程主要是針對用英語完成的工做，其餘語言的可擴展性取決於監督是否可用）

框架：

一、介紹

二、預訓練

三、表明中有什麼？

四、適應

五、下游

六、開放問題

順序遷移學習

瞭解一個任務/數據集，而後遷移到另外一個任務/數據集

預訓練：

word2vec

GloVe

skip-thought

InferSent

ELMo

ULMFiT

GPT

BERT

適應：

分類

序列標記

問答

04預培訓任務和數據集

未標記數據和自我監督：

1. 易於收集的大型語料庫：維基百科、新聞、網絡爬蟲、社交媒體等

2. 訓練利用了分佈假設：「你應該知道它所保存的一個詞」(Firth，1957)，一般形式化爲訓練某種語言模型的變體

3. 注重高效算法利用豐富的數據

監督預培訓：

1. 在視覺上很是常見，因爲缺少大的監控數據集，在NLP中較少見

2. 機器翻譯

3. 句子表達的 NLI

4. 從一個問答數據集到另外一個問答數據集的任務特定傳輸

05目標任務和數據集

目標任務一般是受監控的，跨越一系列常見的NLP任務：

1. 句子或文檔分類（如情感）

2. 句子對分類（如NLI、釋義）

3. 字級（例如序列標記、提取性問答）

4. 結構化預測（如解析）

5. 生成（例如對話、總結）

具體示例——詞向量

單詞嵌入方法（例如word2vec）每一個單詞學習一個向量

06主題：從單詞到語境中的單詞

主題：從單詞到語境中的單詞

詞向量句子/doc向量語境中詞向量

主題：LM預訓練

1. 許多成功的預培訓方法都是基於語言建模的

2. 非正式地，LM學習p（文本）或p（文本/其餘文本）

3. 不須要人工註釋

4. 許多語言有足夠的文原本學習大容量模型

5. 多才多藝，能學習句子和詞的表達，具備多種客觀功能

主題：由淺入深

1層 24層

主題：預培訓與目標任務

預培訓和目標任務的選擇是耦合的

1. 句子/文檔表示法對單詞級預測無效

2. 詞向量能夠跨上下文聚集，但一般比其餘方法更好

3. 在語境詞向量中，雙向語境很重要

通常來講：

1. 相似的預培訓和目標任務→最佳結果

《Transfer Learning in Natural Language Processing》PPT文件，可在公號「數智物語」後臺回覆「NLP中的遷移學習」查看詳情。

星標我，天天多一點智慧

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。