google bert 論文閱讀

時間 2020-12-30

原文原文鏈接

1.原文解讀 Bidirectional Encoder Representations from Transformers，bert，根據字面意思，訓練的其實還是一個embedding，而且還是一個字級別的word embedding，通過這個embedding，有兩種用法，一種是將其作爲特徵，訓練特定的任務時候，不學習這些參數，通過設計特定的架構來實現不同的任務，第二種是將其作爲骨幹網絡，然後

>>阅读原文<<