Spring Boot中對天然語言處理工具包hanlp的調用詳解


概 述算法

 

HanLP 是基於 Java開發的 NLP工具包,由一系列模型與算法組成,目標是普及天然語言處理在生產環境中的應用。並且 HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色,所以十分好上手,本文就結合 Spring Boot來將 HanLP用起來!架構

edbdd22e0ca9871d3eec45a7e45e9cdb9bc6812e

下載 HanLP數據和程序工具

因爲 HanLP庫將數據與代碼分離,所以咱們須要分別下載所需數據和 jar包:性能

(1)所需 data數據包下載地址爲 data.zipspa

(2)所需 jar包下載地址爲 hanlp-release.zipblog

工程搭建接口

(1)建立一個普通的 Spring Boot工程,不贅述ip

(2)引入 HanLP數據 和 配置資源

下載完成之後,首先解壓 hanlp-release.zip壓縮包,而後將解壓出的 HanLP的 jar包引入 Spring Boot工程,而後須要來放置 HanLP所需配置和數據:開發

(1)將解壓後 hanlp-release.zip壓縮包中的 hanlp.properties配置文件置於項目的 resources資源目錄下

(2)而後解壓 data.zip壓縮包,將解壓出的 data目錄一樣至於 resources目錄下( data 中的數據包很重要,是 HanLP工做所需的詞典和模型 )

建立 IO適配器

HanLP 提供了IO適配器,用戶能夠實現其提供的 com.hankcs.hanlp.corpus.io.IIOAdapter 接口以在不一樣的平臺(HDFS、Redis等)上運行HanLP,默認的 IO適配器 IOAdapter = com.hankcs.hanlp.corpus.io.FileIOAdapter 是基於普通文件系統的。

接下來咱們重寫一下 IOAdapter類,使用讀寫靜態資源文件的方法來讀取HanLP所需的詞典和模型數據( 即resources目錄下剛放置的 data目錄 )

相關文章
相關標籤/搜索