1. Java天然語言處理 LingPipehtml
LingPipe 是一個天然語言處理的Java開源工具包。LingPipe目前已有很豐富的功能,包括主題分類(Top Classification)、命名實體識別(Named Entity Recognition)、詞性標註(Part-of Speech Tagging)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測(Interseting Phrase Detection)、聚類(Clustering)、字符語言建模(Character Language Modeling)、醫學文獻下載/解析/索引(MEDLINE Download, Parsing and Indexing)、數據庫文本挖掘(Database Text Mining)、中文分詞(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、語言辨別(Language Identification)等API。java
下載連接:http://alias-i.com/lingpipe/web/download.htmlweb
2.中文天然語言處理工具包 FudanNLP算法
FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。數據庫
演示地址: http://jkx.fudan.edu.cn/nlp/queryapp
FudanNLP目前實現的內容以下:機器學習
中文處理工具 maven
中文分詞工具
詞性標註性能
實體名識別
句法分析
時間表達式識別
信息檢索
文 本分類
新聞聚類
機 器學習
Average Perceptron
Passive-aggressive Algorithm
K-means
Exact Inference
下載連接:http://code.google.com/p/fudannlp/downloads/list
3.天然語言處理工具 OpenNLP
OpenNLP 是一個機器學習工具包,用於處理天然語言文本。支持大多數經常使用的 NLP 任務,例如:標識化、句子切分、部分詞性標註、名稱抽取、組塊、解析等。
4.天然語言處理工具 CRF++
CRF++是著名的條件隨機場開源工具,也是目前綜合性能最佳的CRF工具。CRF++自己已是個比較老的工具了,但鑑於其性能較好,仍然是天然語言處理很重要的一個工具。
NlpBamboo 中文分詞庫在使用該工具。
下載連接:http://sourceforge.net/projects/crfpp/files/
五、Stanford CoreNLP 斯坦福大學NLP
很牛叉的一個庫
下載地址 http://search.maven.org/#browse%7C11864822
學習天然語言這一段時間以來接觸和據說了好多開源的天然語言處理工具,在這裏作一下彙總方便本身之後學習,其中有本身使用過的也有了解不是不少的,對於不甚瞭解的工具之後學習熟悉了會作更新的。
IK Analyzer是一個開源的,基於Java語言開發的輕量級的中文分詞工具包。從2006.12推出1.0版本開始,IK Analyzer已經推出了多個版本,當前最新版本爲2012 u6,最初基於Luence,從3.0開始成爲面向Java的公用分詞組件,獨立於Luence,下載地址爲:http://code.google.com/p/ik-analyzer/。IK支持細粒度和智能分詞兩種切分模式,支持英文字母、數字、中文詞彙等分詞處理,兼容韓文、日文字符。能夠支持用戶自定義的詞典,經過配置IKAnalyzer.cfg.xml文件來實現,能夠配置自定義的擴展詞典和停用詞典。詞典須要採用UTF-8無BOM格式編碼,而且每一個詞語佔一行。配置文件以下所示:
[html] view plaincopy
<properties>
<comment>IK Analyzer 擴展配置</comment>
<!--用戶能夠在這裏配置本身的擴展字典-->
<entry key="ext_dict">ext.dic;</entry>
<!--用戶能夠在這裏配置本身的擴展中止詞字典-->
<entry key="ext_stopwords">stopword.dic;chinese_stopword.dic</entry>
</properties>
IK部署很簡單,只須要把IKAnalyzer2012_u6.jar部署於項目的lib中,同時將IKAnalyzer.cfg.xml文件以及詞典文件置於src中,便可經過API的方式開發調用。
示例代碼:
[java] view plaincopy
/**
* IK分詞功能實現
* @return
*/
public String spiltWords(String srcString){
StringBuffer wordsBuffer = new StringBuffer("");
try{
IKSegmenter ik=new IKSegmenter(new StringReader(srcString), true);
Lexeme lex=null;
while((lex=ik.next())!=null){
// System.out.print(lex.getLexemeText()+" ");
wordsBuffer.append(lex.getLexemeText()).append(" ");
}
}catch(Exception e){
logger.error(e.getMessage());
}
return wordsBuffer.toString();
}
IK簡單、易於擴展,分詞結果較好而且採用Java編寫,由於我平時的項目以Java居多,因此是我平時處理分詞的首選工具。
ICTCLAS是由中科院計算所歷經數年開發的分詞工具,採用C++編寫。最新版本命名爲ICTCLAS2013,又名爲NLPIR漢語分詞系統,官網爲:http://ictclas.nlpir.org/。主要功能包括中文分詞、詞性標註、命名實體識別、用戶詞典功能,同時支持GBK編碼、UTF8編碼、BIG5編碼,新增微博分詞、新詞發現與關鍵詞提取。能夠可視化界面操做和API方式調用。
FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。
主要功能包括:
信息檢索:文本分類,新聞聚類。
中文處理:中文分詞,詞性標註,實體名識別,關鍵詞抽取,依存句法分析,時間短語識別。
結構化學習:在線學習,層次分類,聚類,精確推理。
工具採用Java編寫,提供了API的訪問調用方式。最新版本爲FudanNLP-1.6.1,下載地址爲:http://code.google.com/p/fudannlp/。
下載安裝包後解壓後,內容以下圖所示:
在使用時將fudannlp.jar以及lib中的jar部署於項目中的lib裏面。models文件夾中存放的模型文件,主要用於分詞、詞性標註和命名 實體識別以及分詞所需的詞典;文件夾example中主要是使用的示例代碼,能夠幫助快速入門和使用;java-docs是API幫助文檔;src中存放 着源碼;PDF文檔中有着比較詳細的介紹和天然語言處理基礎知識的講解。
初始運行程序時初始化時間有點長,而且加載模型時佔用內存較大。在進行語法分析時感受分析的結果不是很準確。
Stanford NLP Group是斯坦福大學天然語言處理的團隊,開發了多個NLP工具,官網網址爲:http://nlp.stanford.edu/software/index.shtml。其開發的工具包括如下內容:
採用Java編寫的面向英文的處理工具,下載網址爲:http://nlp.stanford.edu/software/corenlp.shtml。主要功能包括分詞、詞性標註、命名實體識別、語法分析等。
我曾經採用它進行英語單詞的詞性還原,具體應用詳見文章《採用Stanford CoreNLP實現英文單詞詞形還原》。
採用CRF(條件隨機場)算法進行分詞,也是基於Java開發的,同時能夠支持中文和Arabic,官方要求Java版本1.6以上,推薦內存至少1G。下載地址爲http://nlp.stanford.edu/software/segmenter.shtml。
簡單的示例程序:
[java] view plaincopy
//設置分詞器屬性。
Properties props = new Properties();
//字典文件地址,能夠用絕對路徑,如d:/data
props.setProperty("sighanCorporaDict", "data");
//字典壓縮包地址,能夠用絕對路徑
props.setProperty("serDictionary","data/dict-chris6.ser.gz");
//輸入文字的編碼;
props.setProperty("inputEncoding", "UTF-8");
props.setProperty("sighanPostProcessing", "true");
//初始化分詞器,
CRFClassifier classifier = new CRFClassifier(props);
//從持久化文件中加載分詞器設置;
classifier.loadClassifierNoExceptions("data/ctb.gz", props);
// flags must be re-set after data is loaded
classifier.flags.setProperties(props);
//分詞
List words = classifier.segmentString("語句內容");
採用Java編寫的面向英文、中文、法語、阿拉伯語、德語的命名實體識別工具,下載地址爲:http://nlp.stanford.edu/software/tagger.shtml。尚未接觸過,須要之後學習研究。
採用條件隨機場模型的命名實體工具,下載地址爲:http://nlp.stanford.edu/software/CRF-NER.shtml。尚未接觸過,須要之後學習研究。
進行語法分析的工具,支持英文、中文、阿拉伯文和法語。下載地址爲:http://nlp.stanford.edu/software/lex-parser.shtml。具體的使用介紹見《採用Stanford Parser進行中文語法解析》。
採用Java編寫的分類器,下載地址爲:http://nlp.stanford.edu/software/classifier.shtml。尚未接觸過,須要之後學習研究。