cs224n學習4： Contextual Word Representations and Pretraining

時間 2020-12-24

原文原文鏈接

Contextual Word Representations and Pretraining BERT原理詳解 BERT的預訓練過程輸入微調 BERT原理詳解從創新的角度來看,bert實並沒有過多的構方面的創新點,其和GPT一樣均是採用的 transformer的結構,相對於GPT來說,其是雙向結構的,而GPT是單向的,如下圖所示 elmo: 將上下文當作特徵，但是無督的語料和我們真實的語

>>阅读原文<<