論文筆記:NAACL-HLT 2018 BERT Pre-training of Deep Bidirectional Transformers for

前言 近年來比較優秀的詞嵌入模型有word2vec,ELMo,OpenAI GPT,和本文要介紹的BERT。其中word2vec通過全連接神經網絡進行訓練,ELMo通過堆疊LSTM組件構建網絡進行訓練,OpenAI GPT和BERT則以NMT任務所提出的模型架構Transformer爲基本組件構建網絡訓練。BERT(Bidirectional Encoder Representations fro
相關文章
相關標籤/搜索