中文分詞java
中文分詞中有衆多分詞工具,如結巴、hanlp、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支持java,分詞是HanLP最基礎的功能,HanLP實現了許多種分詞算法,每一個分詞器都支持特定的配置。接下來我將介紹如何配置Hanlp來開啓天然語言處理之旅,每一個工具包都是一個很是強大的算法集合,因此小編之後將花一些時間去看看裏面源碼如何。linux
下載jar、property和data文件算法
下載jar文件,(下載hanlp壓縮包)解壓以後得到jar和property文件以下:windows
其中property問配置文件,jar文件爲外部引用文件。 app
而後下載data文件: maven
【https://】pan.baidu.com/s/1o8Rri0y (前面的括號自行去掉)ide
解壓壓縮包以後就能獲取data目錄了。工具
一切就緒以後下面就是配置了。idea
配置hanlpspa
新建一個空項目,包括一個新建的java文件的test.java,
1.package com;
2.import com.hankcs.hanlp.HanLP;
3.public class Test {
4.public static void main(String[] args) {
5. System.out.println(HanLP.segment("你好,歡迎使用HanLP!"));
6. }
7.}
目錄結構以下圖:
若是是在linux中的話,你能夠將property文件放在classpath中,windows中也能夠,配置環境變量,將property文件的絕對路徑加上就能夠了,而後運行一下這個java文件:
你會發現以下錯誤
1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
2.嚴重: 沒有找到hanlp.properties,可能會致使找不到data
3.========Tips========
4.請將hanlp.properties放在下列目錄:
5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes
6.Web項目則請放到下列目錄:
7.Webapp/WEB-INF/lib
8.Webapp/WEB-INF/classes
9.Appserver/lib
10.JRE/lib
11.而且編輯root=PARENT/path/to/your/data
而後將property放到相應的目錄就能夠了,注意property配置只須要修改root的配置就好了。
1.本配置文件中的路徑的根目錄,根目錄+其餘路徑=絕對路徑Windows用戶請注意,路徑分隔符統一使用/
2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java
就好比個人解壓後的data文件夾是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目錄下的那我就改這個就能夠了,其他的配置不用修改
運行成功以下圖:
---------------------
做者:學zaza