NLP基礎(八):ELMO和GPT模型

1.ELMO ELMO(Embedding from Language Model)是一種基於LSTM的詞向量的生成方式,採用兩個單向LSTM。詞向量的表示基於當前的句子上下文,高層LSTM捕捉上下文的詞特徵(語義),底層LSTM捕捉句法層次信息(語法)。網絡架構如下圖: 其中,前向語言模型: 後向語言模型: 目標函數最大化: 優點是解決了一詞多義,在一些任務上有提升。 缺點是LSTM串行,訓練成
相關文章
相關標籤/搜索