jieba(結巴)是一個強大的分詞庫,完美支持中文分詞,作爲最好的Python中文分詞組件。搜索引擎
安裝:pip install jiebaspa
支持三種分詞模式:code
1.精確模式,試圖將句子最精確地切開,適合文本分析;索引
import jieba
strings = '今每天氣真好'
seg = jieba.cut(strings,cut_all=False)
print(','.join(seg))
output : 今每天氣,真,好ip
cut_all參數默認爲False,全部使用cut方法時默認爲精確模式string
2.全模式,把句子中全部的能夠成詞的詞語都掃描出來,速度很是快,可是不能解決歧義;pip
import jieba
strings = '今每天氣真好'
seg = jieba.cut(strings,cut_all=True)
print(','.join(seg))
output : 今天,今每天氣,每天,天氣,真好import
3.搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提升召回率,適合用於搜索引擎分詞。基礎
import jieba
strings = '今每天氣真好'
seg = jieba.cut_for_search(strings)
print(','.join(seg))
output : 今天,每天,天氣,今每天氣,真,好搜索