python使用jieba實現中文文檔分詞和去停用詞

分詞工具的選擇:python

  如今對於中文分詞,分詞工具備不少種,好比說:jieba分詞、thulac、SnowNLP等。在這篇文檔中,筆者使用的jieba分詞,而且基於python3環境,選擇jieba分詞的理由是其比較簡單易學,容易上手,而且分詞效果還很不錯。工具

 

分詞前的準備:3d

待分詞的中文文檔blog

存放分詞以後的結果文檔文檔

中文停用詞文檔(用於去停用詞,在網上能夠找到不少)im

 

分詞以後的結果呈現:img

圖1 去停用詞和分詞前的中文文檔co

圖2去停用詞和分詞以後的結果文檔中文文檔

 

分詞和去停用詞代碼實現:中文

相關文章
相關標籤/搜索