論文筆記：NAACL-HLT 2018 BERT Pre-training of Deep Bidirectional Transformers for

時間 2020-12-23

標籤自然語言處理 nlp 算法機器學習简体版

原文原文鏈接

前言近年來比較優秀的詞嵌入模型有word2vec，ELMo，OpenAI GPT，和本文要介紹的BERT。其中word2vec通過全連接神經網絡進行訓練，ELMo通過堆疊LSTM組件構建網絡進行訓練，OpenAI GPT和BERT則以NMT任務所提出的模型架構Transformer爲基本組件構建網絡訓練。BERT（Bidirectional Encoder Representations fro

>>阅读原文<<