NLP發展

1、Word Embedding

1.Word2Vec(2013)

分佈式假設:假設兩個詞上下文類似,則它們的語義也類似。算法

 

2.GloVe

(1)詞向量學習算法有兩個主要的模型族:

  基於全局矩陣分解的方法,如:latent semantic analysis:LSA 。機器學習

    優勢:可以有效的利用全局的統計信息。分佈式

    缺點:在單詞類比任務(如:國王 vs 王后 類比於男人 vs 女人)中表現相對較差。ide

  基於局部上下文窗口的方法,如:word2vec。學習

    優勢:在單詞類比任務中表現較好。翻譯

    缺點:由於word2vec 在獨立的局部上下文窗口上訓練,所以難以利用單詞的全局統計信息。3d

  Global Vectors for Word Representation:GloVe 結合了LSA 算法和Word2Vec 算法的優勢,既考慮了全局統計信息,又利用了局部上下文。orm

  Cbow/Skip-Gram 是一個local context window的方法,缺少了總體的詞和詞的關係,負樣本採用sample的方式會缺失詞的關係信息。
另外,直接訓練Skip-Gram類型的算法,很容易使得高曝光詞彙獲得過多的權重blog

  Global Vector融合了矩陣分解Latent Semantic Analysis (LSA)的全局統計信息和local context window優點。融入全局的先驗統計信息,能夠加快模型的訓練速度,又能夠控制詞的相對權重。ip

(2)原理

 

 

 

2、RNN改進和擴展

問題:詞向量不考慮上下文,沒法解決「一詞多義」

解決方案:RNN具備「記憶」能力

1.RNN

 

RNN的問題:順序依賴,沒法並行。(單向信息流)

2.LSTM/GRU

2.1 LSTM

2.2 GRU

3.Seq2Seq

可用於翻譯、摘要、問答和對話系統

 

問題:定長的context向量

 

4.Attention/Self Attention

5.Transformer結構

解決:RNN單向數據流的問題

3、Contextual Word Embedding

問題:監督數據量不足,難以學到複雜的上下文表示;

解決方案:無監督的contextual word embedding:ELMo、OpenAI GPT、BERT

1.ELMo

2.OpenAI GPT

 

3.BERT

Masked LM:masked language model

 

舉例:意圖分類

問題:給定一個句子,判斷其意圖分類,幾萬訓練數據,幾百個類別,數據不平衡

結果:BERT分類器比BaseLine分類器F1值得分提升3%

 

 

 

 

 

 

 

 

 

參考文獻:

【1】60分鐘帶你掌握NLP BERT理論與實戰_嗶哩嗶哩 (゜-゜)つロ 乾杯~-bilibili

【2】詳解Transformer (Attention Is All You Need) - 知乎

【3】李宏毅機器學習2019(國語)_嗶哩嗶哩 (゜-゜)つロ 乾杯~-bilibili

相關文章
相關標籤/搜索