論文筆記:Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

1. 概述 目前,很多NLP算法大多采用主流的預訓練模型+下游任務微調這樣的算法架構。預訓練模型種類繁多,如下圖 用的最多的莫過於大名鼎鼎的BERT預訓練模型,同樣是基於Pre-training和Fine-tuning模式架構的 不管啥模型,第一件事都是 tokenizer。對於 BERT 來說,英文的 token 是 word-piece,中文的是字(這也對後面的實驗造成了很大的麻煩,因爲要對齊
相關文章
相關標籤/搜索