BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

時間 2020-12-30

原文原文鏈接

轉自 1.BERT模型 BERT的全稱是Bidirectional Encoder Representation from Transformers，即雙向Transformer的Encoder，因爲decoder是不能獲要預測的信息的。模型的主要創新點都在pre-train方法上，即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的repre

>>阅读原文<<