[轉] 天然語言處理全家福：縱覽當前NLP中的任務、數據、模型與論文

時間 2019-11-29

標籤天然語言處理全家福縱覽當前 nlp 任務數據模型論文简体版

原文原文鏈接

from: https://zhuanlan.zhihu.com/p/38445982html

選自Github，做者：Sebastian Ruder，機器之心編譯。git

天然語言處理有很是多的子領域，且不少都沒有達到使人滿意的性能。本文的目的是追蹤天然語言處理（NLP）的研究進展，並簡要介紹最多見 NLP 任務的當前最佳研究和相關數據集。做者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務，例如依存句法分析和詞性標註。以及更多近期出現的任務，例如閱讀理解和天然語言推理。本文最主要的目的是爲讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽，做爲將來研究的墊腳石。

項目地址：https://github.com/sebastianruder/NLP-progress
參考博客：http://ruder.io/tracking-progress-nlp/

目錄（任務和對應數據集）github

1.CCG 超級標記算法

CCGBank

2.分塊數據庫

Penn Treebank

3.選區解析併發

Penn Treebank

4.指代消歧框架

CoNLL 2012

5.依存解析ide

Penn Treebank

6.對話工具

第二對話狀態追蹤挑戰賽

7.域適應性能

多領域情感數據集

8.語言建模

Penn Treebank
WikiText-2

9.機器翻譯

WMT 2014 EN-DE
WMT 2014 EN-FR

10.多任務學習

GLUE

11.命名實體識別

CoNLL2003

12.天然語言推理

SNLI
MultiNLI
SciTail

13.詞性標註

14.閱讀理解

ARC
CNN/Daily Mail
QAngaroo
RACE
SQuAD
Story Cloze Test
Winograd Schema Challenge

15.語義文本類似性

SentEval
Quora Question Pairs

16.情感分析

IMDb
Sentihood
SST
Yelp

17.情感解析

WikiSQL

18.語義做用標記

OntoNotes

19.自動摘要

CNN/Daily Mail

20.文本分類

AG News
DBpedia
TREC

CCG 超級標記

組合範疇語法（CCG; Steedman, 2000）是一種高度詞彙化的形式主義。Clark 和 Curran 2007 年提出的標準解析模型使用了超過 400 個詞彙語類（或超級標記（supertag）），典型的解析器一般只包含大約 50 個詞性標註。

示例：

CCGBank

CCGBank 是 CCG 衍生物的語料庫，以及從 Hockenmaier 和 Steedman 2007 年提出的 Penn Treebank 中提取的依存結構。第 2-21 部分用於訓練，第 00 部分用於開發，第 23 部分用做域內測試集。其性能僅在 425 個最經常使用的標籤上計算。模型基於準確率來評估。

分塊

分塊（chunking）是解析的淺層形式，能夠識別構成合成單元（例如名詞詞組或動詞詞組）的標記的連續跨度。

示例：

Penn Treebank-分塊

Penn Treebank 一般用於評估分塊。第 15-18 部分用於訓練，第 19 部分用於開發，第 20 部分用於測試。模型基於 F1 評估。

選區解析

選區解析（constituency parsing）的目的是從根據詞組結構語法來表徵其合成結構的句子中提取基於選區的解析樹。

示例：

近期發展出來的方法（《Grammar as a Foreign Language》）將解析樹轉換爲按深度優先遍歷的序列，從而能應用序列到序列模型到該解析樹上。以上解析樹的線性化版本表示爲：(S (N) (VP V N))。

Penn Treebank-選區解析

Penn Treebank 的「Wall Street Journal」部分用於評估選區解析器。第 22 部分用於開發，第 23 部分用於評估。模型基於 F1 評估。如下大多數模型整合了外部數據或特徵。要對比僅在 WSJ 上訓練的單個模型，參見《Constituency Parsing with a Self-Attentive Encoder》。

指代消歧

指代消歧（coreference resolution）是聚類文本中的涉及相同潛在真實世界實體的提述的任務。

示例：

「I」、「my」和「she」屬於相同的聚類，「Obama」和「he」屬於相同的聚類。

CoNLL 2012

實驗是構建在《CoNLL-2012 shared task》的數據集之上的，其使用了 OntoNotes 的共指標註。論文使用官方 CoNLL-2012 評估腳本報告了精度、召回率和 MUC 的 F一、B3 以及 CEAFφ4 指標。主要的評估指標是三個指標的平均 F1。

依存解析

依存解析（dependency parsing）是從表徵其語法結構中提取的依存解析，並定義標頭詞和詞之間的關係，來修改那些標頭詞。

示例：

詞之間的關係在句子之上用定向、標記的弧線（從標頭詞到依存）展現，+表示依存。

Penn Treebank-依存解析

模型在《Stanford typed dependencies manual》中提出的 Penn Treebank 的 Stanford Dependency 變換和預測詞類標記上進行評估。評估指標是未標記依附分數（unlabeled attachment score，UAS）和標記依附分數（LAS）。

對話

衆所周知，對話任務是很難評估的。之前的方法曾經使用了人類評估。

第二對話狀態追蹤挑戰賽

對於目標導向的對話，第二對話狀態追蹤挑戰賽（Second dialog state tracking challenge，DSTSC2）的數據集是一個經常使用的評估數據集。對話狀態追蹤涉及肯定在對話的每一個回合用戶在當前對話點的目標的完整表徵，其包含了一個目標約束、一系列請求機會（requested slot）和用戶的對話行爲。DSTC2 聚焦於餐廳搜索領域。模型基於單獨的和聯合的機會追蹤的準確率進行評估。

領域自適應

多領域情感數據集

多領域情感數據集（Multi-Domain Sentiment Dataset）是情感分析的領域自適應經常使用評估數據集。它包含了來自亞馬遜的不一樣產品類別（當成不一樣領域）的產品評價。這些評價包括星級評定（1 到 5 顆星），一般被轉換爲二值標籤。模型一般在一個和訓練時的源域不一樣的目標域上評估，其僅能訪問目標域的未標記樣本（無監督域適應）。評估標準是準確率和對每一個域取平均的分值。

語言建模

語言建模是預測文本中下一個詞的任務。*表示模型使用了動態評估。

Penn Treebank-語言建模

語言建模的經常使用評估數據集是 Penn Treebank，已通過 Mikolov 等人的預處理（《Recurrent neural network based language model》）。該數據集由 929k 個訓練單詞、73k 個驗證單詞和 82k 個測試單詞構成。做爲預處理的一部分，單詞使用小寫格式，數字替換成 N，換行符用空格表示，而且全部其它標點都被刪除。其詞彙是最頻繁使用的 10k 個單詞，而且剩餘的標記用一個標記替代。模型基於困惑度評估，即平均每一個單詞的對數機率（per-word log-probability），越低越好。

WikiText-2

WikiText-2（《Pointer Sentinel Mixture Models》）相比於 Penn Treebank，其在語言建模中是更接近實際的基準。WikiText-2 由大約兩百萬個從維基百科文章中提取的單詞構成。

機器翻譯

機器翻譯是將句子從源語言轉換爲不一樣的目標語言的任務。帶*的結果表示基於 21 個連續評估的平均驗證集 BLEU 分數的平均測試分數，正如 Chen 等人的論文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》所報告的。

WMT 2014 EN-DE

模型在第九屆統計機器翻譯研討會（VMT2014）的 English-German 數據集上進行評估（根據 BLEU 分數）。

WMT 2014 EN-FR

相似的，在第九屆統計機器翻譯研討會（VMT2014）的 English-French 數據集上進行評估（根據 BLEU 分數）。

多任務學習

多任務學習的目標是同時學習多個不一樣的任務，並最大化其中一個或所有任務的性能。

GLUE

通用語言理解評估基準（GLUE）是用於評估和分析多種已有天然語言理解任務的模型性能的工具。模型基於在全部任務的平均準確率進行評估。

當前最佳結果能夠在公開 GLUE 排行榜上查看：https://gluebenchmark.com/leaderboard。

命名實體識別

命名實體識別（NER）是在文本中以對應類型標記實體的任務。經常使用的方法使用 BIO 記號，區分實體的起始（begining，B）和內部（inside，I）。O 被用於非實體標記。

示例：

CoNLL 2003

CoNLL 2003 任務包含來自 Reuters RCV1 語料庫的新聞通信文本，以 4 種不一樣的實體類型進行標註（PER、LOC、ORG、MISC）。模型基於（基於跨度的）F1 評估。

天然語言推理

天然語言推理是給定一個「前提」，肯定一個「假設」爲真（蘊涵）、假（矛盾）或者不肯定（中性）的任務。

示例：

SNLI

斯坦福天然語言推理（SNLI）語料庫包含大約 550k 個假設/前提對。模型基於準確率評估。

能夠在 SNLI 的網站上查看當前最佳結果：https://nlp.stanford.edu/projects/snli/

MultiNLI

多語型天然語言推理（MultiNLI）語料庫包含大約 433k 個假設/前提對。它和 SNLI 語料庫類似，但覆蓋了多種口頭和書面文本的語型（genre），並支持跨語型的評估。數據能夠從 MultiNLI 網站上下載：https://www.nyu.edu/projects/bowman/multinli/

語型內（匹配）和跨語型（不匹配）評估的公開排行榜可查看（但這些條目沒有對應已發表的論文）：

SciTail

SciTail（《SCITAIL: A Textual Entailment Dataset from Science Question Answering》）導出數據集包含 27k 個條目。和 SNLI、MultiNLI 不一樣，它不是衆包數據集，可是從已有的句子中建立的，假設是從科學問題和對應答案候選中建立的，同時相關網站的來自大型語料庫的句子被用做前提。模型基於準確率評估。

詞性標註

詞性標註（POS tagging）是一種標註單詞在文本中所屬成分的任務。詞性表示單詞所屬的類別，相同的類別通常有類似的語法屬性。通常英語的詞性標註主要有名詞、動詞、形容詞、副詞、代詞、介詞和連詞等。

示例：

Universal Dependencies（UD）是一個跨語言語法標註的框架，它包含超過 60 多種語言的 100 多個 treebanks。模型通常經過 28 種語言中的平均測試準確率進行評估。

Penn Treebank—POS tagging

用於詞性標註的標準數據集是華爾街日報（WSJ）分配的 Penn Treebank，它包含 45 個不一樣的詞性標籤。其中 0-18 用於訓練、19-21 用於驗證其它 22-24 用於測試。模型通常都經過準確率進行評估。

閱讀理解/問答任務

問答是一種自動回答問題的任務。大多數當前的數據集都將該任務是爲閱讀理解，其中問題是段落或文本，而回答一般是文檔之間的跨度。UCL 的機器閱讀研究組還介紹了閱讀理解任務的概覽：https://uclmr.github.io/ai4exams/data.html。

ARC

AI2 Reasoning Challenge（ARC）是一個問答數據集，其中它包含了 7787 個真實的小學水平多項選擇科學問題。數據集分割爲了困難集與簡單集，困難集只包含那些基於詞檢索算法和詞共現算法所沒法正確回答的問題。模型一樣經過準確率評估。

ARC 公開排行榜：http://data.allenai.org/arc/

示例：

QAngaroo

QAngaroo 是兩個閱讀理解數據集，它們須要結合多個文檔的多個推斷步驟。第一個數據集 WikiHop 是一個開放領域，且專一於維基文章的數據集，第二個數據集 MedHop 是一個基於 PubMed 論文摘要的數據集。

該數據集的排行榜可參見：http://qangaroo.cs.ucl.ac.uk/leaderboard.html

RACE

RACE 數據集是一個從中國初中和高中英語測試收集的閱讀理解數據集。該數據集包含 28000 多篇短文和近 100000 條問題。模型可基於中學測試（RACE-m）、高中測試（RACE-h）和完整數據集（RACE）使用準確率進行評估。

數據集下載地址：http://www.cs.cmu.edu/~glai1/data/race/

SQuAD

斯坦福問答數據集（SQuAD）是一個閱讀理解數據集，它包含由衆包基於維基文章提出的問題。回答爲對應閱讀短文的文本片斷。最近 SQuAD 2.0 已經發布了，它引入了與 SQuAD 1.1 中可回答問題相似的不可回答問題，難度高於 SQuAD 1.1。此外，SQuAD 2.0 還得到了 ACL 2018 最佳短論文。

Story Cloze Test

Story Cloze Test 是一個用於故事理解的數據集，它提供了 four-sentence 形式的故事和兩個可能的結局，系統將嘗試選擇正確的故事結局。

Winograd Schema 挑戰賽

Winograd Schema Challenge 是一個用於常識推理的數據集。它使用 Winograd Schema 問題以要求人稱指代消歧：系統必須明確陳述中有歧義指代的先行詞。模型一樣基於準確率評估。

示例：

語義文本類似性

語義文本類似性在於推斷兩段文本之間的距離，例如咱們能夠分配 1 到 5 來表示文本有多麼類似。對應任務有釋義轉換和重複識別。

SentEval

SentEval 是一個用於評估句子表徵的工具包，它包含 17 個下游任務，包括通常的語義文本類似性任務。語義文本類似性（STS）從 2012 到 2016（STS十二、STS1三、STS1四、STS1五、STS1六、STSB）的基準任務基於兩個表徵之間的餘弦類似性度量了兩句子之間的相關性。評估標準通常是皮爾森相關性。

SICK 相關性（SICK-R）任務訓練一個線性模型以輸出 1 到 5 的分數，並指代兩句子之間的相關性。相同數據集（SICK-E）能視爲使用蘊含標籤的二元分類問題。SICK-R 的度量標準也是皮爾森相關性，SICK-E 能夠經過文本分類準確度度量。

Microsoft Research Paraphrase Corpus（MRPC）語料庫是釋義識別的數據集，其中系統旨在識別兩個語句是否相互爲釋義句。評估標準爲分類準確度和 F1 分數。

Quora Question Pairs

Quora Question Pairs 數據集由 400000 對 Quora 問答組成，系統須要識別一個問題是否是其它問題的副本。模型也是經過準確率度量。

情感分析

情感分析是在給定文本下識別積極或消極情感的任務。

IMDb

IMDb 是一個包含 50000 條評論的二元情感分析數據集，評論都來自與互聯網電影數據庫（IMDb），且標註爲積極或消極兩類。模型一樣經過準確率進行評估。

Sentihood

Sentihood 是一個用於針對基於方面的情感分析（TANSA）數據集，它旨在根據具體的方面識別細粒度的情感。數據集包含 5215 個句子，其中 3862 個包含單個目標，其它有多個目標。該任務使用 F1 分數評估檢測的方面，而使用準確率評估情感分析。

SST

Stanford Sentiment Treebank 包含 215154 條短語，且 11855 條電影評論語句都以解析樹的方式有細粒度的情感標註。模型根據準確率評估細粒度和二元分類效果。

細粒度分類：

二元分類：

Yelp

Yelp 評論數據集包含超過 500000 條 Yelp 評論。它們同時有二元和細粒度（5 個類別）級別的數據集，模型經過偏差率（1 - 準確率，越低越好）評估。

細粒度分類：

二元分類：

情感解析

情感解析是一種將天然語言轉化爲正式語義表徵的任務。正式表徵多是 SQL 等可執行的語言，或更抽象的 Abstract Meaning Representation（AMR）表徵等。

WikiSQL

WikiSQL 數據集包含 87673 個問題樣本、SQL 查詢語句和由 26521 張表中創建的數據庫表。該數據集提供了訓練、開發和測試集，所以每一張表只分割一次。模型基於執行結果匹配的準確率進行度量。

示例：

語義功能標註

語義功能標註旨在建模語句的述詞論元結構，它常常描述爲回答「Who did what to whom」。BIO 符號常常用於語義功能標註。

示例：

OntoNotes—語義功能標註

模型一般經過基於 F1 的 OntoNotes 基準進行評估（《Towards Robust Linguistic Analysis Using OntoNotes》）。

自動摘要

自動摘要是一種總結原文本語義爲短文本的任務。

CNN/平常郵件摘要

CNN / Daily Mail 數據集是由 Nallapati et al. (2016) 處理併發布，它已經用於評估自動摘要。該數據集包含帶有多句摘要（平均 3.75 個句子或 56 個詞）的再現新聞文章（平均 781 個詞）。經處理的版本包含 287226 個訓練對、13368 個驗證對和 11490 個測試對。模型基於 ROUGE-一、ROUGE-2 和 ROUGE-L 進行評估，* 表示模型在匿名數據集上進行訓練與評估。

文本分類

文本分類是將句子或文本分配合適類別的任務。類別取決於選擇的數據集，能夠有不一樣的主題。

AG News

AG News 語料庫包含來自「AG's corpus of news articles」的新文章，在 4 個最大的類別上預訓練。該數據集包含每一個類別的 30000 個訓練樣本，以及每一個類別的 1900 個測試樣本。模型基於偏差率評估。

DBpedia

DBpedia ontology 數據集包含 14 個非重疊類別的每個的 40000 個訓練樣本和 5000 個測試樣本。模型基於偏差率評估。

TREC

TREC（《The TREC-8 Question Answering Track Evaluation》）是用於問題分類的數據集，包含開放域、基於事實的問題，並被分紅普遍的語義類別。它有六類別（TREC-6）和五類別（TREC-50）兩個版本。它們都有 4300 個訓練樣本，但 TREC-50 有更精細的標籤。模型基於準確率評估。

TREC-6: