jieba的使用

時間 2019-12-04

標籤 jieba 使用简体版

原文原文鏈接

1. 分詞工具

分詞是天然語言處理中最基礎的一個步驟。而jieba分詞是中文分詞的一個比較好的工具。下面看看能夠怎麼用jieba進行分詞。搜索引擎

import jieba

# 全模式
seg_list1 = jieba.cut('今天我到杭州遊玩', cut_all= True)
print('/'.join(seg_list1))

# 精確模式
seg_list2 = jieba.cut('今天我到杭州遊玩', cut_all= False)
print('/'.join(seg_list2))

# 默認是精確模式
seg_list4 = jieba.cut('我一我的開心地在杭州西湖附近逛逛')
print('/'.join(seg_list4))

# 搜索引擎模式
seg_list3 = jieba.cut_for_search('老王畢業於北京師範大學，畢業後又到臺灣大學深造')
print('/'.join(seg_list3))

結果：spa

2. 詞性識別code

import jieba.posseg as psg

s = '我今天開心地到杭州西湖旅遊，驚訝地看到了白娘子和法海在打架'

words = psg.cut(s)
for word, flag in words:
    print(word, flag)

結果：blog

有關於詞性識別，仍是比較重要的。通常咱們識別一句話或一段話，首先要提取的是這句話的主語謂語賓語，接着是形容詞等，進而提取有用的情感信息內容。索引

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。