分佈式假設:假設兩個詞上下文類似,則它們的語義也類似。算法
基於全局矩陣分解的方法,如:latent semantic analysis:LSA 。機器學習
優勢:可以有效的利用全局的統計信息。分佈式
缺點:在單詞類比任務(如:國王 vs 王后 類比於男人 vs 女人)中表現相對較差。ide
基於局部上下文窗口的方法,如:word2vec。學習
優勢:在單詞類比任務中表現較好。翻譯
缺點:由於word2vec 在獨立的局部上下文窗口上訓練,所以難以利用單詞的全局統計信息。3d
Global Vectors for Word Representation:GloVe 結合了LSA 算法和Word2Vec 算法的優勢,既考慮了全局統計信息,又利用了局部上下文。orm
Cbow/Skip-Gram 是一個local context window的方法,缺少了總體的詞和詞的關係,負樣本採用sample的方式會缺失詞的關係信息。
另外,直接訓練Skip-Gram類型的算法,很容易使得高曝光詞彙獲得過多的權重blog
Global Vector融合了矩陣分解Latent Semantic Analysis (LSA)的全局統計信息和local context window優點。融入全局的先驗統計信息,能夠加快模型的訓練速度,又能夠控制詞的相對權重。ip
問題:詞向量不考慮上下文,沒法解決「一詞多義」
解決方案:RNN具備「記憶」能力
RNN的問題:順序依賴,沒法並行。(單向信息流)
可用於翻譯、摘要、問答和對話系統
問題:定長的context向量
解決:RNN單向數據流的問題
問題:監督數據量不足,難以學到複雜的上下文表示;
解決方案:無監督的contextual word embedding:ELMo、OpenAI GPT、BERT
Masked LM:masked language model
舉例:意圖分類
問題:給定一個句子,判斷其意圖分類,幾萬訓練數據,幾百個類別,數據不平衡
結果:BERT分類器比BaseLine分類器F1值得分提升3%
參考文獻:
【1】60分鐘帶你掌握NLP BERT理論與實戰_嗶哩嗶哩 (゜-゜)つロ 乾杯~-bilibili