在採集美女站時,須要對關鍵詞進行分詞,最終採用的是python的結巴分詞方法.python
中文分詞是中文文本處理的一個基礎性工做,結巴分詞利用進行中文分詞。其基本實現原理有三點:算法
安裝(Linux環境)工具
下載工具包,解壓後進入目錄下,運行:python setup.py install搜索引擎
模式spa
接口code
實例索引
#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)
結果接口