java分詞工具hanlp介紹


前幾天(6月28日),在第23屆中國國際軟件博覽會上,hanlp這款天然語言處理工具榮獲了「2019年第二十三屆中國國際軟件博覽會優秀產品」。算法

封面.jpg 

HanLP是由一系列模型預算法組成的工具包,結合深度神經網絡的分佈式天然語言處理,具備功能完善、性能高效、架構清晰、語料時新、可自定義等特色,提供詞法分析、句法分析、文本分析和情感分析等功能,是GitHub最受歡迎、用戶量最大(超過13000個star)、社區活躍度最高的天然語言處理技術。數組

HanLP徹底開源,包括詞典。不依賴其餘jar,底層採用了一系列高速的數據結構,如雙數組Trie樹、DAWG、AhoCorasickDoubleArrayTrie等,這些基礎件都是開源的。官方模型訓練自2014人民日報語料庫,您也能夠使用內置的工具訓練本身的模型。網絡

經過工具類HanLP您能夠一句話調用全部功能,文檔詳細,開箱即用。底層算法通過精心優化,極速分詞模式下可達2,000萬字/秒,內存僅需120MB。在IO方面,詞典加載速度極快,只需500 ms便可快速啓動。HanLP通過屢次重構,目前已經更新到了1.7版本,新增並完善了中文分詞、命名實體識別、信息抽取、文本分類、文本聚類、畫法分析等功能,使用效率和適用性獲得了大幅提高。數據結構

圖1.JPG 

 圖2.JPG

 

 圖3.JPG

相關文章
相關標籤/搜索