041 模塊5-jieba庫的使用

時間 2019-11-07

標籤模塊 jieba 使用简体版

原文原文鏈接

目錄python

1、jieba庫基本介紹

1.1 jieba庫概述

jieba是優秀的中文分詞第三方庫函數

中文文本須要經過分詞得到單個的詞語
jieba是優秀的中文分詞第三方庫，須要額外安裝
jieba庫提供三種分詞模式，最簡單隻需掌握一個函數

1.2 jieba庫的安裝

pip install jieba(cmd命令行)ui

1.3 jieba分詞的原理

Jieba分詞依靠中文詞庫搜索引擎

利用一箇中文詞庫，肯定漢字之間的關聯機率
漢字間機率大的組成詞組，造成分詞結果
除了分詞，用戶還能夠添加自定義的詞組

2、jieba庫使用說明

2.1 jieba分詞的三種模式

精確模式、全模式、搜索引擎模式命令行

精確模式：把文本精確的切分開，不存在冗餘單詞
全模式：把文本中全部可能的詞語都掃描出來，有冗餘
搜索引擎模式：在精確模式基礎上，對長詞再次切分

2.2 jieba庫經常使用函數

函數	描述
jieba.lcut(s)	精確模式，返回一個列表類型的分詞結果
jieba.lcut(s, cut_all=True)	全模式，返回一個列表類型的分詞結果，存在冗餘
jieba.lcut_for_search(s)	搜索引擎模式，返回一個列表類型的分詞結果，存在冗餘
jieba.add_word(w)	向分詞詞典增長新詞w

import jieba

jieba.lcut("中國是一個偉大的國家")

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.





['中國', '是', '一個', '偉大', '的', '國家']

jieba.lcut("中國是一個偉大的國家",cut_all=True)

['中國', '國是', '一個', '偉大', '的', '國家']

jieba.lcut("中華人民共和國是偉大的")

['中華人民共和國', '是', '偉大', '的']

jieba.lcut("中華人民共和國是偉大的",cut_all=True)

['中華', '中華人民', '中華人民共和國', '華人', '人民', '人民共和國', '共和', '共和國', '國是', '偉大', '的']

jieba.lcut_for_search("中華人民共和國是偉大的")

['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

jieba.add_word("蟒蛇語言")

2.3 分詞要點

jieba.lcut(s)code

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。