中文天然語言處理(NLP)(一)python jieba模塊的初步使用

時間 2019-11-24

標籤中文天然語言處理 nlp python jieba 模塊初步使用欄目 Python 简体版

原文原文鏈接

1.jieba分詞的安裝

直接在cmd窗口當中pip install便可html

2.jieba分詞的介紹

jieba分詞是目前比較好的中文分詞組件之一，jieba分詞支持三種模式的分詞(精確模式、全模式、搜索引擎模式)，而且支持自定義詞典(這一點在特定的領域很重要，有時候須要根據領域的須要來添加特定的詞典以提升分詞結果的質量)、支持繁體字分詞python

3.jieba分詞三種分詞模式及使用例子

jieba分詞模塊的主要方法是jieba.cut()，精確模式和全模式的區別主要在於其中的參數不一樣學習

(1)精確模式：將文本精確地切開，適用於文本分析測試

jieba.cut()方法裏面的CUT_ALL=False搜索引擎

(2)全模式：將文本里面全部能夠成詞的詞語所有提取出來，速度較快，可是不能解決歧義的問題spa

jieba.cut()方法裏面的CUT_ALL=Truecode

(3)搜索引擎模式：在精確模式的基礎上，將長詞再次切分，供搜索使用htm

須要調用jieba.cut_for_search()方法blog

僅僅是看這些東西，看不出個因此然來，接下來對三種分詞的模式進行測試：索引

1 text='北京郵電大學是教育部直屬、工業和信息化部共建、首批進行「211工程」建設的全國重點大學'
2 try_words=jieba.cut(text,cut_all=True)
3 print ('全模式分詞結果:'+','.join(try_words))
4 try_words=jieba.cut(text,cut_all=False)
5 print ('精確模式分詞結果:'+','.join(try_words))
6 try_words=jieba.cut_for_search(text)
7 print ('搜素引擎模式分詞結果:'+','.join(try_words))

上述代碼運行結果：

全模式分詞結果:北京,北京郵電,北京郵電大學,郵電,郵電大學,電大,大學,是,教育,教育部,直屬,,,工業,和,信息,信息化,部,共建,,,首批,進行,,211,工程,,,建設,的,全國,重點,大學

精確模式分詞結果:北京郵電大學,是,教育部,直屬,、,工業,和,信息化,部,共建,、,首批,進行,「,211,工程,」,建設,的,全國,重點,大學

搜素引擎模式分詞結果:北京,郵電,電大,大學,北京郵電大學,是,教育,教育部,直屬,、,工業,和,信息,信息化,部,共建,、,首批,進行,「,211,工程,」,建設,的,全國,重點,大學

分析上述代碼獲得的結果，咱們看出全模式分詞是將文本當中全部的詞都提取出來，提詞的窗口是容許重疊和包含的，詞語當中的字眼能夠出現屢次，可是這種分詞模式有可能會出現歧義；精確模式分詞是將文本精確地分隔開，成詞較長的優先，不存在成詞窗口的重疊與重複的狀況，這種分詞模式出現歧義的機率比較小，可是有可能會出現分詞窗口過大，某些重點詞不會單獨出如今結果當中的狀況。綜上所述，這兩種模式的分詞適用於不一樣的情景，應當酌情選擇。

值得一提的是，這個例子當中的「工業和信息化部」也應當是一個獨立的名詞，可是這三種分詞方法當中都沒有出現這個詞語，這就須要人工添加詞庫來實現，放在下一部分。

再對文本當中可能出現的歧義狀況進行嘗試：

1 text2='南京市長江大橋是一座大橋'
2 try_words=jieba.cut(text2,cut_all=True)
3 print ('全模式分詞結果:'+','.join(try_words))
4 try_words=jieba.cut(text2,cut_all=False)
5 print ('精確模式分詞結果:'+','.join(try_words))
6 try_words=jieba.cut_for_search(text2)
7 print ('搜索引擎模式分詞結果:'+','.join(try_words))

這個例子當中的文本爲「南京市長江大橋是一座大橋」，咱們但願提取出來的分詞結果應當爲：「南京市長江大橋」，或者說，最次也應該是「南京市」和「長江大橋」兩個詞語，上述代碼的運行結果爲：

全模式分詞結果:南京,南京市,京市,市長,長江,長江大橋,大橋,是,一座,大橋

精確模式分詞結果:南京市,長江大橋,是,一座,大橋

搜索引擎模式分詞結果:南京,京市,南京市,長江,大橋,長江大橋,是,一座,大橋

分析結果：三種模式當中都沒有出現咱們的最佳預期(南京市長江大橋)，反而在全模式和搜索引擎模式下的分詞結果當中出現了歧義詞(市長、京市)，這跟咱們的語境顯然是無關的，這也剛好反映了全模式和搜索引擎模式分詞的一個缺陷，也就是容易出現與語境無關的歧義詞，而精確模式出現的比較少。

至於爲何會出現上述狀況，我在查閱相關資料以後，認爲緣由以下：

中文分詞的方法大體能夠分爲三類：基於字典、詞庫匹配的分詞方法；基於詞頻度統計的分詞方法和基於知識理解的分詞方法(另外還有逐詞遍歷法，可是由於不論文本有多麼短，詞庫多麼大都要逐詞遍歷一遍，效率太低，因此說大部分狀況不予採用)。通常的中文分詞模塊使用基於字典、詞庫的分詞方法，全模式使用的策略爲(設詞典中最長詞的長度爲n)：從字段的第一個字符開始，向後讀取1,2,...n個字符，而且到詞典當中去對應，若是能對應上，就將其取出來，這樣就能夠達到將全部能夠成詞的字段提取出來(而且有重複部分)的目的；而相應的，精確模式的分詞策略則多是儘量將取詞窗口擴大，也就是在可能含有重複的長度從1到n的這些詞中，取最長的一個輸出。

(上述的「緣由」只是我在使用分詞模塊的各個模式時的一點我的見解，不必定正確，對於項目也沒有什麼影響，畢竟我也沒有去專門研究過源碼。。。)

4.jieba分詞添加自定義的詞典

中文分詞經常用於許多特定的語境，相應的也就須要添加一些特定語境下的詞典，好比上一部分的「南京市長江大橋」就屬於「地標建築」之類的詞典，若是分詞將其分爲「南京市」和「長江大橋」就有可能不能徹底反映出原文本的重點(畢竟南京市的東西不少，長江大橋也不止南京市有)，這種時候咱們就須要添加自定義的詞典來提升分詞的質量。

1 jieba.add_word('工業和信息化部')

使用jieba模塊的add_word()方法便可對其加入新的詞，插入以後的分詞結果以下：

全模式分詞結果:北京,北京郵電,北京郵電大學,郵電,郵電大學,電大,大學,是,教育,教育部,直屬,,,工業,工業和信息化部,信息,信息化,部,共建,,,首批,進行,,211,工程,,,建設,的,全國,
重點,大學
精確模式分詞結果:北京郵電大學,是,教育部,直屬,、,工業和信息化部,共建,、,首批,進行,「,211,工程,」,建設,的,全國,重點,大學
搜素引擎模式分詞結果:北京,郵電,電大,大學,北京郵電大學,是,教育,教育部,直屬,、,工業,信息,信息化,工業和信息化部,共建,、,首批,進行,「,211,工程,」,建設,的,全國,重點,大學
全模式分詞結果:南京,南京市,南京市長江大橋,京市,市長,長江,長江大橋,大橋,是,一座,大橋
精確模式分詞結果:南京市長江大橋,是,一座,大橋
搜索引擎模式分詞結果:南京,京市,市長,長江,大橋,南京市,南京市長江大橋,是,一座,大橋

主要的改變在於全模式和搜索引擎模式直接加入了這個詞，而精確模式則是將新加詞的子集詞(姑且這麼稱呼)取代了，這也符合上一部分的假設。

中文天然語言處理(NLP)(二)python jieba模塊的進一步學習和xlrd模塊：https://www.cnblogs.com/aLieb/p/11143235.html

中文天然語言處理(NLP)(三)運用python jieba模塊計算知識點當中關鍵詞的詞頻：https://www.cnblogs.com/aLieb/p/11152109.html

這大概就是第一天的成果了，內容實際上是幾個月以前學習到的，今天拿出來整理一下，但願從此也能夠繼續堅持下去吧。