中文分詞原理與實現

存在意義 中文文本不存在邊界,所以中文分詞是專業處理中文信息的搜索引擎需首先面對的問題 1 Lucene中文切分 StandardTokenizer單子分詞  CJKTokenizer二元覆蓋 CnTokenizer   單子切分問題問題 搜索’上海’ 結果可能‘海上’ 二元覆蓋可以解決‘上海‘和’海上‘混淆問題 適合小規模搜索網站 中文分詞適用於大規模的搜索引擎 1.1 Lucene切分原理 T
相關文章
相關標籤/搜索