論文閱讀筆記:《Contextual String Embeddings for Sequence Labeling》

文章引起我關注的主要原因是在CoNLL03 NER的F1值超過BERT達到了93.09左右,名副其實的state-of-art。考慮到BERT訓練的數據量和參數量都極大,而該文方法只用一個GPU訓了一週,就達到了state-of-art效果,值得花時間看看。 一句話總結:使用BiLSTM模型,用動態embedding取代靜態embedding,character-level的模型輸出word-le
相關文章
相關標籤/搜索