HMM中文分詞_CodingPark編程公園

文章介紹 新詞識別OVV是中文分詞一大難點,爲此我們從詞語級模型切換到字符級模型,將中文分詞任務轉換爲序列標註問題。 作爲新手起步,我們嘗試了最簡單的序列標註模型----隱馬爾可夫模型 HMM中文分詞流程 映射 標註集:將標註集{B,M,E,S}映射爲連續的整形id 詞表:將字符映射爲另一套id, 語料轉換 我們必須把語料庫轉換爲(x,y)二元組才能訓練HMM 訓練 HMMTrainer #tra
相關文章
相關標籤/搜索