jieba的使用

1. 分詞工具

分詞是天然語言處理中最基礎的一個步驟。而jieba分詞是中文分詞的一個比較好的工具。下面看看能夠怎麼用jieba進行分詞。搜索引擎

import jieba

# 全模式
seg_list1 = jieba.cut('今天我到杭州遊玩', cut_all= True)
print('/'.join(seg_list1))

# 精確模式
seg_list2 = jieba.cut('今天我到杭州遊玩', cut_all= False)
print('/'.join(seg_list2))

# 默認是精確模式
seg_list4 = jieba.cut('我一我的開心地在杭州西湖附近逛逛')
print('/'.join(seg_list4))

# 搜索引擎模式
seg_list3 = jieba.cut_for_search('老王畢業於北京師範大學,畢業後又到臺灣大學深造')
print('/'.join(seg_list3))

結果:spa

2. 詞性識別code

import jieba.posseg as psg

s = '我今天開心地到杭州西湖旅遊,驚訝地看到了白娘子和法海在打架'

words = psg.cut(s)
for word, flag in words:
print(word, flag)

結果:blog

 

有關於詞性識別,仍是比較重要的。通常咱們識別一句話或一段話,首先要提取的是這句話的主語謂語賓語,接着是形容詞等,進而提取有用的情感信息內容。索引

相關文章
相關標籤/搜索