NLP的兩種工具的java版使用:復旦FudanNLP,中科院計算所ICTCLAS2013

編程語言:javahtml

三種工具的簡要介紹:java

FudanNLP算法

google project上的介紹是:apache

FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。編程

If you're new to FudanNLP, check out the Quick Start (使用說明) page, FudanNLP Book or Java-docs.eclipse

功能有:機器學習

  1. 信息檢索: 文本分類 新聞聚類
  2. 中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別
  3. 結構化學習: 在線學習 層次分類 聚類 精確推理

下載地址:http://code.google.com/p/fudannlp/downloads/list編程語言

能夠直接用eclipse打開,若是有錯誤如:找不到主類。最大可能性是主類的包或者類路徑沒有設正確
看看類路徑和classpath變量。project-properties-java build path-libraries-add library加入相應的jre便可運行。svn

跑example裏面的java文件試試。工具

 

中科院計算所ICTCLAS2013

[引用:http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html]

ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有着良好的口碑和很高的使用率。以前一直只有 C++的版本提供,而如今也有C#,Delphi和Java版本.

能夠不用之前的C++版提供的JNI調用,直接使用純Java版本的ICTCLAS。

下載地址:http://ictclas.org/Down_OpenSrc.asp

解壓縮,把Data文件夾整個拷貝到Eclipse項目的文件夾下,而bin目錄下的org文件夾整個拷貝到你Eclipse項目的bin目錄下,把src目錄下的org文件夾整個拷貝到Eclipse項目的src目錄下(最簡單快捷的使用方式,或者你本身打成jar包,這樣不管放到哪裏,均可以在build path裏面導入這個jar包)。

這時候,可能會有錯誤:org.apache.commons.lang.builder.ReflectionToStringBuilder找不到類。這時在網上找相應的類包org.apache.commons.lang下載導入,add便可。

運行,若報錯:找不到主類。同上面FudanNLP所說,add library加入相應jre。

新建一個test文件夾,右鍵,build path-use as source folder,往裏面加入一個測試文件test1.java:

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class test1 {

    public static void main(String[] args){
        System.out.println("This is one main");
        SegTag st = new SegTag(1);
        SegResult sr = st.split("NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;
詞性標註;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵
詞提取。"); System.out.println(sr.getFinalResult()); } }

便可運行。

相關文章
相關標籤/搜索