在一些語料資源匱乏的語種中,可用的數據可能只是部分標註的(部分NE正確標註,部分NE被標註爲O),以下圖所示:
算法
其中標籤爲NE的token可視爲positive instance,標籤爲O的的token被視爲negtive instance,被錯分爲O的NE就稱爲False Negative。本文提出了一種基於約束驅動的迭代算法(constraint-driven iterative algorithm)來學習發現噪聲數據中的Negative False樣例並下降他們的權重,從而下降噪聲在訓練時對NER模型的影響。網絡
本文提出的方法稱爲CBL,與之類似的已有工做爲CoDL:Constraint Driven Learning(Chang et al, 2007)。該方法的目的是對全部標記爲O的tokens賦予一個權重,false negative的具備較低(接近0)的權重,而其它O則具備較高的權重(接近1)。學習
解決訓練樣本中帶有噪聲的方法通常有兩種:
(1)找到false negative樣例並更正他們的標籤。
(2)找到false negative樣例並剔除他們。
本文采用了第(2)種方法,這是因爲O標籤的token在訓練數據集中佔據多數,剔除一部分並不會形成問題。spa
CBL分爲兩個階段:
(1)模仿CoDL,採用約束循環算法訓練一個二元分類器$\lambda$,訓練流程是一個train-predict-infer循環,以下所示:
(2)使用訓練好的二元分類器$\lambda$對每一個樣例賦予權重,公式以下:blog
$$ v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases} $$token
本文的一個貢獻是上述流程的inference step(第6行),使用了Integer Linear Program(ILP),其中約束是基於實體比例b(entity ratio),公式爲:
$$b = \frac{|P|}{|P| + |N|}$$
已有工做顯示,在fully-annotated數據集中實體率通常爲$0.09 \pm 0.05$。ci
對於帶權重的訓練集,實體率可用以下公式計算:
$$b = \frac{|P|}{|P| + \sum_{i \in N}v_i}$$
還能夠經過乘於一個$\gamma$因子來修改實體率,公式以下:
$$b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}$$
可計算$\gamma$爲:
$$\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}$$
爲了得到目標實體率$b^*$,咱們能夠將$N$中樣例權重乘於放縮因子$\gamma$,獲得:
$$v^* = \gamma v_i$$資源
約束條件ILP以下圖所示:
等式(8)中$y_{0i}$和$y_{1i}$分別表示token $i$對應的是negative仍是positive標籤。$C_{0i}$和$C_{1i}$根據二元分類器$\lambda$的最後一次預測分數獲得。$\delta$表示容許較小的軟間隔,$\xi \geq 0.99$。hash
NER模型使用瞭如下兩種:
(1)非神經網絡模型:Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018),使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特徵,更改了權重更新公式:
$$\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)$$
(2)神經網絡模型:基於BiLSTM-CRF,爲了將權重加入到CRF訓練中,參考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法,公式以下:
it
使用了以下8中語言的數據集,並根據如下兩種人工擾動(Artificial Perturbation)策略模擬噪聲:
(1)下降recall,經過將某些實體所有替換成O獲得,直到獲得知足要求的recall;
(2)下降precision,在隨機的起始位置而且選擇隨機1-3的長度做爲一個NE,直到獲得知足要求precision。
本文提出了一種基於約束驅動的迭代算法CBL對部分標註數據賦予權重,以下降錯誤分類的Negative False樣例在訓練NER模型時的影響。