Python分詞庫jieba快速入門

時間 2021-01-05

標籤 app ide 測試搜索引擎 spa 命令行 code orm 索引欄目 Python 简体版

原文原文鏈接

Python有一個庫名爲jieba的中文分詞庫，能夠把中文句子切分紅一個個的詞語以用於文本分析、製做詞雲圖等。app

首先咱們要安裝jieba，在命令行輸入「pip install jieba」便可。jieba有3種分詞模式，分別是精準模式（將句子儘可能精準切分開）、全模式（將全部能成爲詞語的都切分出來）、搜索引擎模式（在精準模式的基礎上再次切分比較長的詞語）。ide

安裝好後就能夠直接使用了。測試

import jieba#導入jieba庫s = '我喜歡九龍公園游泳池，那裏我再也不執着一些往事。'#定義測試字符串

精準模式搜索引擎

jieba.cut(s)#返回的結果是生成器#<generator object Tokenizer.cut at 0x000001E58DCC6248>
print('/'.join(jieba.cut(s)))#將結果用「/」拼接後打印出來：'我/喜歡/九龍/公園/游泳池/，/那裏/我/再也不/執着/一些/往事/。'

全模式spa

jieba.cut(s, cut_all=True)#輸入參數cut_all=True便是全模式，返回的結果也是生成器
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來：'我/喜歡/九龍/公園/游泳/游泳池/泳池/，/那裏/我/再也不/執着/一些/往事/。'#能夠看到「游泳池」被切分爲3個詞

搜索引擎模式命令行

jieba.cut_for_search(s)#返回的結果也是生成器
print('/'.join(jieba.cut_for_search(s)))#將結果用「/」拼接後打印出來：'我/喜歡/九龍/公園/游泳/泳池/游泳池/，/那裏/我/再也不/執着/一些/往事/。'

獲取其它類型的結果code

#在方法面前加上「l」，返回的就是列表了jieba.lcut(s)jieba.lcut(s, cut_all=True)jieba.lcut_for_search(s)

向詞典中添加新詞orm

jieba.add_word('龍公')#該方法每次只能添加一個詞，添加後能夠識別該詞
print('/'.join(jieba.cut(s, cut_all=True)))#將結果用「/」拼接後打印出來：'我/喜歡/九龍/龍公/公園/游泳/游泳池/泳池/，/那裏/我/再也不/執着/一些/往事/。'#能夠識別到新添加的詞了