041 模塊5-jieba庫的使用

1、jieba庫基本介紹

1.1 jieba庫概述

jieba是優秀的中文分詞第三方庫函數

  • 中文文本須要經過分詞得到單個的詞語
  • jieba是優秀的中文分詞第三方庫,須要額外安裝
  • jieba庫提供三種分詞模式,最簡單隻需掌握一個函數

1.2 jieba庫的安裝

pip install jieba(cmd命令行)ui

041-模塊5-jieba庫的使用-01.jpg?x-oss-process=style/watermark

1.3 jieba分詞的原理

Jieba分詞依靠中文詞庫搜索引擎

  • 利用一箇中文詞庫,肯定漢字之間的關聯機率
  • 漢字間機率大的組成詞組,造成分詞結果
  • 除了分詞,用戶還能夠添加自定義的詞組

2、jieba庫使用說明

2.1 jieba分詞的三種模式

精確模式、全模式、搜索引擎模式命令行

  • 精確模式:把文本精確的切分開,不存在冗餘單詞
  • 全模式:把文本中全部可能的詞語都掃描出來,有冗餘
  • 搜索引擎模式:在精確模式基礎上,對長詞再次切分

2.2 jieba庫經常使用函數

函數 描述
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.lcut(s, cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗餘
jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗餘
jieba.add_word(w) 向分詞詞典增長新詞w
import jieba

jieba.lcut("中國是一個偉大的國家")
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.





['中國', '是', '一個', '偉大', '的', '國家']
jieba.lcut("中國是一個偉大的國家",cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']
jieba.lcut("中華人民共和國是偉大的")
['中華人民共和國', '是', '偉大', '的']
jieba.lcut("中華人民共和國是偉大的",cut_all=True)
['中華', '中華人民', '中華人民共和國', '華人', '人民', '人民共和國', '共和', '共和國', '國是', '偉大', '的']
jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
jieba.add_word("蟒蛇語言")

2.3 分詞要點

jieba.lcut(s)code

相關文章
相關標籤/搜索