菜鳥如何使用hanlp作分詞的過程記錄

菜鳥如何使用hanlp作分詞的過程記錄html

最近在學習hanlp的內容,準備在節後看看有沒有時間整理一波hanlp分享下,應該仍是會像以前分享DKHadoop同樣的方式吧。把整個學習的過程當中截圖在配文字的方式搞一下。java

這兩天也在看一些其餘人分享的hanlp學習和使用分享的文章,後面看到的分享也會轉載分享給你們。今天分享的這篇也是很早前別人分享的一篇如何用hanlp作分詞的文章,新手入門級的能夠看看!正則表達式

 

boss給了個作分詞的任務,最開始想用的是結巴分詞and正則表達式。後來發現結果並很差,須要一遍一遍篩選【第一個標準篩選出80%的數據,而後制定第二個標準,繼續篩選,而後制定第三個標準篩選,等等等等】eclipse

本身用了一下結巴分詞,感受對於人名,地名,機構名,只是泛泛地使用了一下。在實際分開的時候,並不能很好地分開機構名稱。因而轉而使用hanlp分詞。maven

可是hanlp分詞的缺點是隻有在java上能夠用,可是java一貫又是個人弱項。因此在這裏寫一篇博客從頭到尾敘述一下怎麼樣使用hanlp。oop

並且,小胖胖把個人電腦鎖在北師圖書館櫃子裏了。我工做沒有電腦可用,因而使用小胖的電腦,也就是說,全部的基本變量都須要我本身來配來下,所以也至關因而從一張白紙到使用hanlp的過程。學習

第一步:下載一個jdk到openjdk官網去下一個,直接安裝便可。測試

安裝事後,要配置三個環境變量,分別是spa

一、JAVA_HOME:C:\Program Files\Java\jdk1.8.0_73;.net

二、CLASSPATH: 就是這個jdk打開以後裏面的那個lib的目錄;

三、PATH:就是jdk後面的bin目錄;

配置完成以後,在Windows底下的cmd上面,輸入java -version看看有沒有反應便可判斷是否正確安裝jdk。

【我這裏出現了個小問題,在胖胖的電腦裏,不知道她以前安裝過什麼東西,自帶了一個jre1.6 然而我安裝的是jre1.8 在cmd裏面報錯,說找不到jre1.6 後來我看了網上的說法,說是也許你別的軟件也會下載java環境,因此你可能有許多不一樣的包,系統在尋找路徑的時候,默認會根據你上面配置的環境變量裏面找。所以,須要把我們最新下的那個環境變量放在一大堆環境變量的最前面,嘗試便可。】

載了jdk安裝成功以後,第二步,下載eclipse

到官網去找,記住,x86是32位,x64是64位,下載以後設定project的位置【好比我設在了D盤的根目錄,結果發現不太好,可是已經改不了了。。教訓】

安裝成功以後,第三步,去下載hanlp的各類東西

方法1.maven方法,下載一個0配置便可。【可是我不會玩兒】

方法2:先下載hanlp-1.2.8.jar這個jar包【備註,目前hanlp版本已經發布到了portable-1.6.8

http://hanlp.com/

再下載data.zip這個數據包,能夠選擇,選擇下載標準數據or迷你數據or所有數據。大小不一樣。我下的是標準版的。40M

再下載hanlp.properties這個是一個以properties結尾的一個文件,我以前歷來沒見過,不過能夠用txt打開。

第四步:把下載的這些東西導入到eclipse裏面去,構建路徑

一、把jar包導入到eclipse的lib目錄下

http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

二、本身在src裏面建立一個包,在包裏面建立一個類。包會在我設置的根目錄D:/下面,類名稱首字母必須大寫?【貌似不大寫的話,會被否決】

三、把data包解壓,而後放在一個本身喜歡的路徑【個人路徑是D://py/】而後,在hanlp.properties這個文件裏,把root修改成data存放的上一級目錄。

四、把hanlp.properties拖動到src這個目錄下

 

而後試驗了一個demo測試,發現報錯,而後點擊import import com.hankcs.hanlp.HanLP;而後run了一下程序

依然報錯,發現是沒有把properties那個文件導入到bin目錄下,再次打開test0320,在那個bin目錄下複製properties文件以後運行,成功了

轉載自tianbwin2995 的博客

相關文章
相關標籤/搜索