NLP發展

時間 2019-11-20

標籤 nlp 發展简体版

原文原文鏈接

1、Word Embedding

1.Word2Vec（2013）

分佈式假設：假設兩個詞上下文類似，則它們的語義也類似。算法

2.GloVe

（1）詞向量學習算法有兩個主要的模型族：

　　基於全局矩陣分解的方法，如：latent semantic analysis:LSA 。機器學習

　　　　優勢：可以有效的利用全局的統計信息。分佈式

　　　　缺點：在單詞類比任務（如：國王 vs 王后類比於男人 vs 女人）中表現相對較差。ide

　　基於局部上下文窗口的方法，如：word2vec。學習

　　　　優勢：在單詞類比任務中表現較好。翻譯

　　　　缺點：由於word2vec 在獨立的局部上下文窗口上訓練，所以難以利用單詞的全局統計信息。3d

　　Global Vectors for Word Representation:GloVe 結合了LSA 算法和Word2Vec 算法的優勢，既考慮了全局統計信息，又利用了局部上下文。orm

　　Cbow/Skip-Gram 是一個local context window的方法，缺少了總體的詞和詞的關係，負樣本採用sample的方式會缺失詞的關係信息。
另外，直接訓練Skip-Gram類型的算法，很容易使得高曝光詞彙獲得過多的權重blog

　　Global Vector融合了矩陣分解Latent Semantic Analysis (LSA)的全局統計信息和local context window優點。融入全局的先驗統計信息，能夠加快模型的訓練速度，又能夠控制詞的相對權重。ip

（2）原理

2、RNN改進和擴展

問題：詞向量不考慮上下文，沒法解決「一詞多義」

解決方案：RNN具備「記憶」能力

1.RNN

RNN的問題：順序依賴，沒法並行。（單向信息流）

2.LSTM/GRU

2.1 LSTM

2.2 GRU

3.Seq2Seq

可用於翻譯、摘要、問答和對話系統

問題：定長的context向量

4.Attention/Self Attention

5.Transformer結構

解決：RNN單向數據流的問題

3、Contextual Word Embedding

問題：監督數據量不足，難以學到複雜的上下文表示；

解決方案：無監督的contextual word embedding：ELMo、OpenAI GPT、BERT

1.ELMo

2.OpenAI GPT

3.BERT

Masked LM：masked language model

舉例：意圖分類

問題：給定一個句子，判斷其意圖分類，幾萬訓練數據，幾百個類別，數據不平衡

結果：BERT分類器比BaseLine分類器F1值得分提升3%

參考文獻：

【1】60分鐘帶你掌握NLP BERT理論與實戰_嗶哩嗶哩 (゜-゜)つロ乾杯~-bilibili

【2】詳解Transformer （Attention Is All You Need） - 知乎

【3】李宏毅機器學習2019(國語)_嗶哩嗶哩 (゜-゜)つロ乾杯~-bilibili

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。