編程語言:javahtml
三種工具的簡要介紹:java
FudanNLP算法
google project上的介紹是:apache
FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。編程
If you're new to FudanNLP, check out the Quick Start (使用說明) page, FudanNLP Book or Java-docs.eclipse
功能有:機器學習
下載地址:http://code.google.com/p/fudannlp/downloads/list編程語言
能夠直接用eclipse打開,若是有錯誤如:找不到主類。最大可能性是主類的包或者類路徑沒有設正確
看看類路徑和classpath變量。project-properties-java build path-libraries-add library加入相應的jre便可運行。svn
跑example裏面的java文件試試。工具
中科院計算所ICTCLAS2013
[引用:http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html]
ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有着良好的口碑和很高的使用率。以前一直只有 C++的版本提供,而如今也有C#,Delphi和Java版本.
能夠不用之前的C++版提供的JNI調用,直接使用純Java版本的ICTCLAS。
下載地址:http://ictclas.org/Down_OpenSrc.asp
解壓縮,把Data文件夾整個拷貝到Eclipse項目的文件夾下,而bin目錄下的org文件夾整個拷貝到你Eclipse項目的bin目錄下,把src目錄下的org文件夾整個拷貝到Eclipse項目的src目錄下(最簡單快捷的使用方式,或者你本身打成jar包,這樣不管放到哪裏,均可以在build path裏面導入這個jar包)。
這時候,可能會有錯誤:org.apache.commons.lang.builder.ReflectionToStringBuilder找不到類。這時在網上找相應的類包org.apache.commons.lang下載導入,add便可。
運行,若報錯:找不到主類。同上面FudanNLP所說,add library加入相應jre。
新建一個test文件夾,右鍵,build path-use as source folder,往裏面加入一個測試文件test1.java:
import org.ictclas4j.bean.SegResult; import org.ictclas4j.segment.SegTag; public class test1 { public static void main(String[] args){ System.out.println("This is one main"); SegTag st = new SegTag(1); SegResult sr = st.split("NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;
詞性標註;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵
詞提取。"); System.out.println(sr.getFinalResult()); } }
便可運行。