Python分詞庫jieba快速入門


Python有一個庫名爲jieba的中文分詞庫,能夠把中文句子切分紅一個個的詞語以用於文本分析、製做詞雲圖等。app

首先咱們要安裝jieba,在命令行輸入「pip install jieba」便可。jieba有3種分詞模式,分別是精準模式(將句子儘可能精準切分開)、全模式(將全部能成爲詞語的都切分出來)、搜索引擎模式(在精準模式的基礎上再次切分比較長的詞語)。ide


安裝好後就能夠直接使用了。測試

import jieba#導入jieba庫s = '我喜歡九龍公園游泳池,那裏我再也不執着一些往事。'#定義測試字符串


精準模式搜索引擎

jieba.cut(s)#返回的結果是生成器#<generator object Tokenizer.cut at 0x000001E58DCC6248>
print('/'.join(jieba.cut(s)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳池/,/那裏/我/再也不/執着/一些/往事/。'


全模式spa

jieba.cut(scut_all=True)#輸入參數cut_all=True便是全模式,返回的結果也是生成器
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳/游泳池/泳池/,/那裏/我/再也不/執着/一些/往事/。'#能夠看到「游泳池」被切分爲3個詞


搜索引擎模式命令行

jieba.cut_for_search(s)#返回的結果也是生成器
print('/'.join(jieba.cut_for_search(s)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/公園/游泳/泳池/游泳池/,/那裏/我/再也不/執着/一些/往事/。'


獲取其它類型的結果code

#在方法面前加上「l」,返回的就是列表了jieba.lcut(s)jieba.lcut(s, cut_all=True)jieba.lcut_for_search(s)


向詞典中添加新詞orm

jieba.add_word('龍公')#該方法每次只能添加一個詞,添加後能夠識別該詞
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來:'我/喜歡/九龍/龍公/公園/游泳/游泳池/泳池/,/那裏/我/再也不/執着/一些/往事/。'#能夠識別到新添加的詞了
相關文章
相關標籤/搜索