天然語言處理之:搭建基於HanLP的開發環境(轉)

環境搭建比FNLP的簡單,具體參考:https://github.com/hankcs/HanLPjava

各個版本的下載:https://github.com/hankcs/HanLP/releasesgit

完畢後有一個報錯:github

字符類型對應表加載失敗:eclipse

D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes工具

直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目錄下新建一個txt文檔將名稱改成 CharType.dat.yes 便可。學習

相對比較簡單。spa

嘗試HanLP主要處於各個開源天然語言處理工具包之間的差別,尋找一個適合學習的開源工具包。blog

HanLP調用方法接口

HanLP幾乎全部的功能均可以經過工具類HanLP快捷調用,當你想不起來調用方法時,只需鍵入HanLP.,IDE應當會給出提示,並展現HanLP完善的文檔。全部Demo都位於com.hankcs.demo下,比文檔覆蓋了更多細節,更新更及時,強烈建議運行一遍。ip

HanLP的適用過程當中注意的問題:

一、由於HanLP版本更新比較頻繁,因此,jar源代碼版本須要對應適用,不然源碼和jar中接口調用對應不上。

在進行CRF分詞過程當中報錯:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

    at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)

    at java.nio.ByteBuffer.allocate(ByteBuffer.java:335)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytesFromFileInputStream(IOUtil.java:251)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytes(IOUtil.java:178)

    at com.hankcs.hanlp.corpus.io.ByteArray.createByteArray(ByteArray.java:47)

    at com.hankcs.hanlp.model.crf.CRFModel.loadTxt(CRFModel.java:89)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:58)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:73)

    at test.Main.main(Main.java:56)

 

是由於CRF比較耗內存,因此出現內存不足,因此須要修改一下VM的最大內存。

選中工程,而後:

便可解決。

在源碼包文件在eclipse中打開出現亂碼,解決方法:

(必須)首先用txt打開,而後在第一行添加:encoding="utf-8"便可。

轉載自CrazyNong 的博客

相關文章
相關標籤/搜索