標註適應:以中文分詞和依存分析爲例

能受限於人工標註語料的質量和規模。人工語料構造代價高昂,然而對於許多語言處理任務,卻同時存在多個不一樣標註標準的語料庫。多種標註標準的語料表明着不一樣語言學觀點的比較和碰撞,同時也意味着語言學知識的浪費。本報告闡述了標註適應問題以及解決方案的本質原理,並提出了一系列漸進加強的標註適應算法。在中文分詞和依存分析兩大任務上,標註適應方法都能在不增長系統複雜性的條件下帶來顯著的性能提高。算法

 

原文地址:http://www.infoq.com/cn/presentations/marked-adaptapp

相關文章
相關標籤/搜索