論文學習 -- Attending to Characters in Neural Sequence Labeling Models

2016 COLING 的一篇文章,在序列標註的框架裏,同時使用character級別的embedding和word級別的embedding 並且在兩種embedding之間使用attention的機制結合 序列標註模型: BI-LSTM + CRF, 有一個問題不太理解: 爲什麼這裏要加一個層,解釋的理由不是太理解。 loss function是最小化負的正樣本的log概率,概率是CRF得到的
相關文章
相關標籤/搜索