Python有一個庫名爲jieba的中文分詞庫,能夠把中文句子切分紅一個個的詞語以用於文本分析、製做詞雲圖等。app
首先咱們要安裝jieba,在命令行輸入「pip install jieba」便可。jieba有3種分詞模式,分別是精準模式(將句子儘可能精準切分開)、全模式(將全部能成爲詞語的都切分出來)、搜索引擎模式(在精準模式的基礎上再次切分比較長的詞語)。ide
安裝好後就能夠直接使用了。測試
import jieba#導入jieba庫s = '我喜歡九龍公園游泳池,那裏我再也不執着一些往事。'#定義測試字符串
精準模式搜索引擎
jieba.cut(s)#返回的結果是生成器#<generator object Tokenizer.cut at 0x000001E58DCC6248>
print('/'.join(jieba.cut(s)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳池/,/那裏/我/再也不/執着/一些/往事/。'
全模式spa
jieba.cut(s, cut_all=True)#輸入參數cut_all=True便是全模式,返回的結果也是生成器
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳/游泳池/泳池/,/那裏/我/再也不/執着/一些/往事/。'#能夠看到「游泳池」被切分爲3個詞
搜索引擎模式命令行
jieba.cut_for_search(s)#返回的結果也是生成器
print('/'.join(jieba.cut_for_search(s)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳/泳池/游泳池/,/那裏/我/再也不/執着/一些/往事/。'
獲取其它類型的結果code
#在方法面前加上「l」,返回的就是列表了jieba.lcut(s)jieba.lcut(s, cut_all=True)jieba.lcut_for_search(s)
向詞典中添加新詞orm
jieba.add_word('龍公')#該方法每次只能添加一個詞,添加後能夠識別該詞
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/龍公/公園/游泳/游泳池/泳池/,/那裏/我/再也不/執着/一些/往事/。'#能夠識別到新添加的詞了