中文天然語言處理工具HanLP源碼包的下載使用記錄

這篇文章主要分享的是hanlp天然語言處理源碼的下載,數據集的下載,以及將讓源代碼中的demo可以跑通。Hanlp安裝包的下載以及安裝其實以前就已經有過度享了。本篇文章主要仍是備忘之用,同時算是給新手朋友的一些參考吧!java

不過在此以前先推薦兩本書給想要學習中文天然語言處理的朋友,分別是《NLP漢語天然語言處理原理與實戰》,裏面介紹了漢語天然語言處理的相關技術,還有一些源碼的解讀;另外一本是《python天然語言處理》。python

下面就進入到本篇的正題,其實只須要下載源代碼,下載字典和模型數據文件、下載配置文件,而且對配置文件稍做修改,而後再使用IDE打開源代碼,就能夠運行了,總的來講整個過程其實並不複雜。源代碼、字典以及模型、配置文件的下載你們能夠到GitHub上下載。git

網頁中提供了詳細的說明,其實按照說明來就能夠,下載之後將字典和模型文件解壓到一個目錄,建議放在工程名目錄下:github

 

data中就是模型文件和字典數據文件:ide

經過github提供的源代碼下載連接下載下來的文件不包含hanlp.properties配置文件,這是你須要下載一個release版本的代碼,解壓之後,裏面有一個hanlp.properties文件工具

將這個文件分別拷貝到解壓之後的源代碼target/classes和target-classes目錄下學習

 

最後用ide打開源代碼,我使用的ide工具是IDEA(Intellij),其餘ide的操做應該大同小異,固然配置文件也許只須要一份就夠了,不須要兩個目錄都拷貝,我這裏沒有驗證,爲保險起見,兩個目錄下都拷貝一份,讀者能夠試驗一下,我這裏主要目的是爲了能跑通。blog

 

上述步驟完成以後,打開src/test/java/com.hankcs/demo下的demo,就能夠跑出結果了,接下來,就順藤摸瓜去讀源代碼吧get

相關文章
相關標籤/搜索