BERT 爲何第一個詞爲[CLS]

[CLS]就是classification的意思, 由於作next sentence predict任務,就取[CLS]對應的最後的隱狀態過MLP, 也就是最後的[batch_size,len1+len2,hidden_size]的[batch_size,0,hidden_size]去預測是否是下一句。web 而一樣操做,MaskLM是取那個MASK的詞對應的位置的隱狀態過MLP,預測這個詞是什麼
相關文章
相關標籤/搜索