藉助BERT論文, 梳理下天然語言處理當前常見的任務.ui
根據判斷主題的級別, 將全部的NLP任務分爲兩種類型:lua
即BERT
模型預訓練的兩個任務之一, 等價於完形填空任務, 即給出句子中其餘的上下午token
, 推測出當前位置應當是什麼token
.code
解決這個問題就能夠直接參考BERT
在預訓練時使用到的模型: masked language model. 即在與訓練時, 將句子中的部分token
用[masked]
這個特殊的token
進行替換, 就是將部分單詞遮掩住, 而後目標就是預測[masked]
對應位置的單詞.token
這種訓練的好處是不須要人工標註的數據. 只須要經過合適的方法, 對現有語料中的句子進行隨機的遮掩便可獲得能夠用來訓練的語料. 訓練好的模型, 就能夠直接使用了.ip
這是一個生成式的任務. 樣本爲語句對. 給出一個問題, 和一段來自於Wikipedia的文本, 其中這段文本之中, 包含這個問題的答案, 返回一短語句做爲答案.get
由於給出答案, 這是一個生成式的問題, 這個問題的特殊性在於最終的答案包含在語句對的文本內容之中, 是有範圍的, 並且是連續分佈在內容之中的.it
所以, 咱們找出答案在文本語句的開始和結尾處, 就能找到最後的答案. 經過對文本語句序列中每一個token對應的全部hidden vector作softmax判斷是開始的機率和是結束的機率, 最大化這個機率就能進行訓練, 並獲得輸出的結果.io
本質是對句子中的每一個token打標籤, 判斷每一個token的類別.class
經常使用的數據集有:pdf
Person
, Organization
, Location
, Miscellaneous
, or Other (non-named entity)
.天然語言推斷任務, 即給出一對(a pair of)句子, 判斷兩個句子是entailment(相近), contradiction(矛盾)仍是neutral(中立)的. 因爲也是分類問題, 也被稱爲sentence pair classification tasks.
在智能問答, 智能客服, 多輪對話中有應用.
經常使用的數據集有:
兩個句子相關性的分類問題, NLI task
是其中的特殊狀況. 經典的此類問題和對應的數據集有:
Quora
的問題句子在語義上是不是等價的.(question, answer)
對. 正樣本爲answer
是對應question
的答案, 負樣本則相反.1~5
的評分評價二者在語義上的類似程度.給出一個陳述句子和4個備選句子, 判斷前者與後者中的哪個最有邏輯的連續性, 至關於閱讀理解問題.