google bert 論文閱讀

1.原文解讀 Bidirectional Encoder Representations from Transformers,bert,根據字面意思,訓練的其實還是一個embedding,而且還是一個字級別的word embedding,通過這個embedding,有兩種用法,一種是將其作爲特徵,訓練特定的任務時候,不學習這些參數,通過設計特定的架構來實現不同的任務,第二種是將其作爲骨幹網絡,然後
相關文章
相關標籤/搜索