命名實體識別競賽中的經驗過擬合

實體競賽最重要的是分數,而分數則對應着數據打標者當時對數據進行標註的心態。所以,有時候數據預處理的方法並不是理論上完美,實際就無敵的。因爲打標者的心態不可知。 對於過長的文本,打標者的心態很可能是厭惡,那麼在進行實體識別這種繁瑣的人工標註過程中,他們可能只會看前半部分,把一些標籤撈出來,而當前這條數據的後面的幾個實體,因爲在文本的最後面,有可能就草草標註了事。這樣就導致很多的錯誤實體存在於長文本的
相關文章
相關標籤/搜索