BERT疑惑記錄

1、單個句子的任務,我們拿第一個cls向量,上面接一些全連接層,做一個分類,標註的數據 fine-tuningbert參數也包括全連接的一個參數,爲什麼選擇第一個? bert任務還是預測這個詞,預測的時候會參考其他的詞,如eat本身還是吃的語義,直接根據eat去分類,顯然是不可以的,cls沒有太多其他詞的語義,所以它的語義完全來自其他的語義 來自整個句子,編碼了整個句子的語義,用它做可以,當然也可
相關文章
相關標籤/搜索