Windows下CRF++進行中文人名識別的初次嘗試

語料來自1998年1月份人民日報語料 1 語料處理 1.1 原始語料數據格式 語料中,句子已經被分詞好,並且在人名後以「/」標註了「nr」表示是人名,其他非人名的分詞沒有進行標註 1.2 CRF++要求語料的格式 訓練語料至少應具有兩列,列間由空格或製表位間隔,且所有行(空行除外)必須具有相同的列數,句子間使用空行間隔 1.3 對原始數據進行處理 CRF++可以有多個特徵,舉例如下圖    本次實
相關文章
相關標籤/搜索