基於條件隨機場(CRF)的組織機構實體識別

組織機構實體主要指企事業單位、公司、組織、網站等。我的主要是從文本中識別出組織機構實體名稱來。鑑於條件隨機場在序列標註方面的優勢,以及處理詞語特徵包括上下文環境特徵方面,這次工作採用了條件隨機場,具體工具爲CRF++。 1.語料預處理 採用的語料是1998年1月份的《人民日報》語料,這個語料資源是公開的,從網上可以下載到。語料的格式如下所示: 語料中已經做好標註,其中nt表示組織機構實體,簡單實體
相關文章
相關標籤/搜索