NLP學習計劃(二)-中文文本特徵處理

 中文分詞的中文分詞指將一個漢字序列切分成一個個單獨的詞。現有的中文分詞算法有五大類:基於詞典的方法,基於統計的方法,基於規則的方法,基於字標註的方法,基於人工智能技術(基於理解)的方法。中文分詞目前主要有三個難點,分別是分詞規範問題、未登錄詞識別、歧義切分問題。 一.基本文本處理技能 對於中文分詞算法共有以下五類: 1基於詞典的方法(字符串匹配,機械分詞方法) 2基於統計的分詞(無字典分詞) 3
相關文章
相關標籤/搜索