python中文分詞，使用結巴分詞對python進行分詞

時間 2019-11-16

標籤 python 中文分詞使用結巴分詞進行欄目 Python 简体版

原文原文鏈接

在採集美女站時,須要對關鍵詞進行分詞,最終採用的是python的結巴分詞方法.python

中文分詞是中文文本處理的一個基礎性工做，結巴分詞利用進行中文分詞。其基本實現原理有三點：算法

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字全部可能成詞狀況所構成的有向無環圖（DAG)
採用了動態規劃查找最大機率路徑, 找出基於詞頻的最大切分組合
對於未登陸詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi算法

安裝（Linux環境）工具

下載工具包，解壓後進入目錄下，運行：python setup.py install搜索引擎

模式spa

默認模式，試圖將句子最精確地切開，適合文本分析
全模式，把句子中全部的能夠成詞的詞語都掃描出來，適合搜索引擎

接口code

組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數：
- 　　第一個參數爲須要分詞的字符串
- 　　cut_all參數用來控制分詞模式
待分詞的字符串能夠是gbk字符串、utf-8字符串或者unicode
jieba.cut返回的結構是一個可迭代的generator，能夠使用for循環來得到分詞後獲得的每個詞語(unicode)，也能夠用list(jieba.cut(...))轉化爲list
seg=jieba.cut("http://www.gg4493.cn/"):

實例索引

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)

結果接口