1. 分詞工具
分詞是天然語言處理中最基礎的一個步驟。而jieba分詞是中文分詞的一個比較好的工具。下面看看能夠怎麼用jieba進行分詞。搜索引擎
import jieba # 全模式 seg_list1 = jieba.cut('今天我到杭州遊玩', cut_all= True) print('/'.join(seg_list1)) # 精確模式 seg_list2 = jieba.cut('今天我到杭州遊玩', cut_all= False) print('/'.join(seg_list2)) # 默認是精確模式 seg_list4 = jieba.cut('我一我的開心地在杭州西湖附近逛逛') print('/'.join(seg_list4)) # 搜索引擎模式 seg_list3 = jieba.cut_for_search('老王畢業於北京師範大學,畢業後又到臺灣大學深造') print('/'.join(seg_list3))
結果:spa
2. 詞性識別code
import jieba.posseg as psg
s = '我今天開心地到杭州西湖旅遊,驚訝地看到了白娘子和法海在打架'
words = psg.cut(s)
for word, flag in words:
print(word, flag)
結果:blog
有關於詞性識別,仍是比較重要的。通常咱們識別一句話或一段話,首先要提取的是這句話的主語謂語賓語,接着是形容詞等,進而提取有用的情感信息內容。索引