Bert訓練過程

word2vec存在問題: 語言模型如rnn、lstm最後輸出的是整個句子的向量,而我們需要預測的是其中某個詞的向量,所以用其做爲詞向量訓練不合適, 有了雙向lstm,即ELMo。   Bert的預訓練過程:  bert:兩個句子如果相連則輸出0,不相連則輸出1,然後將所有句子兩兩組合輸入模型,開頭加【cls】第一句【sep】第二句【sep】損失函數爲mask單詞和句子間關係損失之和。  bert
相關文章
相關標籤/搜索