分詞工具的選擇:python
如今對於中文分詞,分詞工具備不少種,好比說:jieba分詞、thulac、SnowNLP等。在這篇文檔中,筆者使用的jieba分詞,而且基於python3環境,選擇jieba分詞的理由是其比較簡單易學,容易上手,而且分詞效果還很不錯。工具
分詞前的準備:3d
待分詞的中文文檔blog
存放分詞以後的結果文檔文檔
中文停用詞文檔(用於去停用詞,在網上能夠找到不少)im
分詞以後的結果呈現:img
圖1 去停用詞和分詞前的中文文檔co
圖2去停用詞和分詞以後的結果文檔中文文檔
分詞和去停用詞代碼實現:中文