NLP基礎(八):ELMO和GPT模型

1.ELMO

ELMO(Embedding from Language Model)是一種基於LSTM的詞向量的生成方式,採用兩個單向LSTM。詞向量的表示基於當前的句子上下文,高層LSTM捕捉上下文的詞特徵(語義),底層LSTM捕捉句法層次信息(語法)。網絡架構如下圖:
網絡架構
其中,前向語言模型:
前向語言模型
後向語言模型:
後向語言模型
目標函數最大化:
目標函數最大化
優點是解決了一詞多義,在一些任務上有提升。

缺點是LSTM串行,訓練成本大,LSTM對長距離的提取特徵不如Transformer。

2.GPT

GPT(Generative Pre-Training)是使用Transformer的Decoder部分的預訓練模型,架構如下:

GPT
無監督訓練:
無監督訓練
有監督微調:
有監督微調

參考資料
[1]Deep contextualized word representations
[2]Improving Language Understandingby Generative Pre-Training