NLP基礎（八）：ELMO和GPT模型

時間 2021-01-13

原文原文鏈接

1.ELMO ELMO（Embedding from Language Model）是一種基於LSTM的詞向量的生成方式，採用兩個單向LSTM。詞向量的表示基於當前的句子上下文，高層LSTM捕捉上下文的詞特徵（語義），底層LSTM捕捉句法層次信息（語法）。網絡架構如下圖：其中，前向語言模型：後向語言模型：目標函數最大化：優點是解決了一詞多義，在一些任務上有提升。缺點是LSTM串行，訓練成