配置Hanlp天然語言處理進階

中文分詞java

中文分詞中有衆多分詞工具,如結巴、hanlp、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支持java,分詞是HanLP最基礎的功能,HanLP實現了許多種分詞算法,每一個分詞器都支持特定的配置。接下來我將介紹如何配置Hanlp來開啓天然語言處理之旅,每一個工具包都是一個很是強大的算法集合,因此小編之後將花一些時間去看看裏面源碼如何。linux

下載jarpropertydata文件算法

下載jar文件,(下載hanlp壓縮包)解壓以後得到jarproperty文件以下:windows

 

其中property問配置文件,jar文件爲外部引用文件。 app

而後下載data文件: maven

https://pan.baidu.com/s/1o8Rri0y (前面的括號自行去掉)ide

解壓壓縮包以後就能獲取data目錄了。工具

一切就緒以後下面就是配置了。idea

配置hanlpspa

新建一個空項目,包括一個新建的java文件的test.java

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment("你好,歡迎使用HanLP"));

6.    }

7.}  

目錄結構以下圖:

 

若是是在linux中的話,你能夠將property文件放在classpath中,windows中也能夠,配置環境變量,將property文件的絕對路徑加上就能夠了,而後運行一下這個java文件:

你會發現以下錯誤

 

1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2.嚴重: 沒有找到hanlp.properties,可能會致使找不到data

3.========Tips========

4.請將hanlp.properties放在下列目錄:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web項目則請放到下列目錄:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11.而且編輯root=PARENT/path/to/your/data

 

而後將property放到相應的目錄就能夠了,注意property配置只須要修改root的配置就好了。

 

1.本配置文件中的路徑的根目錄,根目錄+其餘路徑=絕對路徑Windows用戶請注意,路徑分隔符統一使用/

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就好比個人解壓後的data文件夾是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目錄下的那我就改這個就能夠了,其他的配置不用修改

 

運行成功以下圖:

 

---------------------

做者:學zaza

相關文章
相關標籤/搜索