李宏毅nlp學習筆記05:BERT

1.Context Vector(考慮上下文關係的向量): 2.self-supervised learning(自監督學習): 3.預測下一個token: 需要注意的是,輸入w1來預測出w2的時候,是不能同時把w2輸入的,很顯然的。否則模型直接訓練爲與下一個輸入相同即可。 通過h1來得出輸出爲w1的方法,上圖中的右側爲一種方法。 最早的使用的model 是一個LSTM: 現在一般使用的是self
相關文章
相關標籤/搜索