Hanlp1.7版本的新增功能一覽

時間 2019-11-06

標籤 hanlp1.7 hanlp 版本新增功能一覽简体版

原文原文鏈接

Hanlp1.7版本在去年下半年的時候就隨大快的DKH1.6版本同時發佈了，截至目前1.7大版本也更新到了1.7.1了。本篇分別就1.7.0和1.7.1中新增的功能作一個簡單的彙總介紹。java

HanLP 是由一系列模型與算法組成的 Java 工具包，目標是普及天然語言處理在生產環境中的應用。HanLP 具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。在提供豐富功能的同時，HanLP 內部模塊堅持低耦合、模型堅持惰性加載、服務堅持靜態提供、詞典堅持明文發佈，使用很是方便，同時自帶一些語料處理工具，幫助用戶訓練本身的模型。算法

1.7.0更新以下：數組

新增文本聚類模塊（k-means和repeated bisection）緩存

詞法分析器新增流水線模式架構

詞法分析器加入規則 enableRuleBasedSegment #991函數

支持經過 JVM 的啓動參數指定 data 路徑：java -DHANLP_ROOT=/opt/hanlp 則加載/opt/hanlp/data #983工具

分詞斷句支持指定斷句顆粒 #1018性能

CustomDictionary.insert("新詞語", "詞性標籤") 支持省略頻次優化

NeuralNetworkDependencyParser 構造函數接受 Segmentspa

TextRankKeyword 支持構造自任意分詞器

優化雙數組 trie 樹，構建後自動 shrink 到最低內存 #984

修訂簡繁詞典

微調 ngram 和 nr 模型