ICTCLAS2015 Java版本的使用方法

ICTCLAS2015 Java版本的安裝能夠參考如下連接地址:html

http://www.68idc.cn/help/buildlang/ask/20150104157420.html 函數

http://m.blog.csdn.net/blog/wangongxi/43116873# 測試


分詞每每是天然語言處理的第一步。在分詞的基礎上,咱們能夠進行關鍵字的提取、搜索、糾錯等應用。在理論上,分詞能夠採用的方法有不少,最經典的辦法莫過於HMM模型、CRF及其它語言模型如Bigram、Trigram等。NLPIR(又名:ICTCLAS2015)是由中科院張華平博士研發的,基於HMM模型免費分詞軟件。早期的版本名爲ICTCLAS+年份。因爲分詞的內核是由C語言寫成的,所以對於Java的開發人員不是十分地方便。不過好在Java的本地接口技術能夠幫助咱們應付簡單的開發和測試。下面就是本人用NLPIR創建的Java工程環境。通過測試,能夠正常運行和分詞。在這裏結合C接口說明文檔進行解釋(該文本能夠從下載的NLPIR壓縮包中得到)。ui

0.初始化函數: NLPIR_Init(String sDataPath, int encoding, String sLicenceCode)spa

想要正確地運行NLPIR(不管在C環境仍是Java環境),都必須具有兩個東西:Data文件夾和動態連接庫NLPIR.dll。它們都可以從下載的壓縮包中得到。在圖1中也能夠看到。.net

1.對內存中的字符串進行分詞:NLPIR_ParagraphProcess(String sSrc, int bPOSTagged)orm

2.對外存中的字符串進行分詞:NLPIR_FileProcess(String sSourceFilename,String sResultFilename,int bPOStagged)
htm

3.添加或者刪除用戶本身的詞彙:NLPIR_AddUserWord(String sWord), NLPIR_DelUsrWord(String sWord)blog

相關文章
相關標籤/搜索