NLP常見任務

藉助BERT論文, 梳理下天然語言處理當前常見的任務.ui

NLP任務

根據判斷主題的級別, 將全部的NLP任務分爲兩種類型:lua

  • token-level task: token級別的任務. 如完形填空(Cloze), 預測句子中某個位置的單詞; 或者實體識別; 或是詞性標註; SQuAD等.
  • sequence-level task: 序列級別的任務, 也能夠理解爲句子級別的任務. 如情感分類等各類句子分類問題; 推斷兩個句子的是不是同義等.

token-level task

Cloze task

BERT模型預訓練的兩個任務之一, 等價於完形填空任務, 即給出句子中其餘的上下午token, 推測出當前位置應當是什麼token.code

解決這個問題就能夠直接參考BERT在預訓練時使用到的模型: masked language model. 即在與訓練時, 將句子中的部分token[masked]這個特殊的token進行替換, 就是將部分單詞遮掩住, 而後目標就是預測[masked]對應位置的單詞.token

這種訓練的好處是不須要人工標註的數據. 只須要經過合適的方法, 對現有語料中的句子進行隨機的遮掩便可獲得能夠用來訓練的語料. 訓練好的模型, 就能夠直接使用了.ip

SQuAD(Standford Question Answering Dataset) task

這是一個生成式的任務. 樣本爲語句對. 給出一個問題, 和一段來自於Wikipedia的文本, 其中這段文本之中, 包含這個問題的答案, 返回一短語句做爲答案.get

由於給出答案, 這是一個生成式的問題, 這個問題的特殊性在於最終的答案包含在語句對的文本內容之中, 是有範圍的, 並且是連續分佈在內容之中的.it

所以, 咱們找出答案在文本語句的開始和結尾處, 就能找到最後的答案. 經過對文本語句序列中每一個token對應的全部hidden vectorsoftmax判斷是開始的機率和是結束的機率, 最大化這個機率就能進行訓練, 並獲得輸出的結果.io

Named Entity Recognition

本質是對句子中的每一個token打標籤, 判斷每一個token的類別.class

經常使用的數據集有:pdf

  • NER(Named Entity Recognition) dataset: 對應於Person, Organization, Location, Miscellaneous, or Other (non-named entity).

sequence-level task

NLI(Natural Language Inference) task

天然語言推斷任務, 即給出一對(a pair of)句子, 判斷兩個句子是entailment(相近), contradiction(矛盾)仍是neutral(中立)的. 因爲也是分類問題, 也被稱爲sentence pair classification tasks.

在智能問答, 智能客服, 多輪對話中有應用.

經常使用的數據集有:

  • MNLI(Multi-Genre Natural Language Inference): 是GLUE Datasets(General Language Understanding Evaluation)中的一個數據集. 是一個大規模的來源衆多的數據集, 目的就是推斷兩個句子是意思相近, 矛盾, 仍是無關的.
  • WNLI(Winograd NLI)

Sentence Pair Classification tasks

兩個句子相關性的分類問題, NLI task是其中的特殊狀況. 經典的此類問題和對應的數據集有:

  • QQP(Quora Question Pairs): 這是一個二分類數據集. 目的是判斷兩個來自於Quora的問題句子在語義上是不是等價的.
  • QNLI(Question Natural Language Inference): 也是一個二分類問題, 兩個句子是一個(question, answer)對. 正樣本爲answer是對應question的答案, 負樣本則相反.
  • STS-B(Semantic Textual Similarity Benchmark): 這是一個相似迴歸的問題. 給出一對句子, 使用1~5的評分評價二者在語義上的類似程度.
  • MRPC(Microsoft Research Paraphrase Corpus): 句子對來源於對同一條新聞的評論. 判斷這一對句子在語義上是否相同.
  • RTE(Recognizing Textual Entailment): 是一個二分類問題, 相似於MNLI, 可是數據量少不少.

Single Sentence Classification tasks

  • SST-2(Stanford Sentiment Treebank): 單句的二分類問題, 句子的來源於人們對一部電影的評價, 判斷這個句子的情感.
  • CoLA(Corpus of Linguistic Acceptability): 單句的二分類問題, 判斷一個英文句子在語法上是否是可接受的.

SWAG(Situations With Adversarial Generations)

給出一個陳述句子和4個備選句子, 判斷前者與後者中的哪個最有邏輯的連續性, 至關於閱讀理解問題.

相關文章
相關標籤/搜索