概 述算法
HanLP 是基於 Java開發的 NLP工具包,由一系列模型與算法組成,目標是普及天然語言處理在生產環境中的應用。並且 HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色,所以十分好上手,本文就結合 Spring Boot來將 HanLP用起來!架構
下載 HanLP數據和程序工具
因爲 HanLP庫將數據與代碼分離,所以咱們須要分別下載所需數據和 jar包:性能
(1)所需 data數據包下載地址爲 data.zipspa
(2)所需 jar包下載地址爲 hanlp-release.zipblog
工程搭建接口
(1)建立一個普通的 Spring Boot工程,不贅述ip
(2)引入 HanLP數據 和 配置資源
下載完成之後,首先解壓 hanlp-release.zip壓縮包,而後將解壓出的 HanLP的 jar包引入 Spring Boot工程,而後須要來放置 HanLP所需配置和數據:開發
(1)將解壓後 hanlp-release.zip壓縮包中的 hanlp.properties配置文件置於項目的 resources資源目錄下
(2)而後解壓 data.zip壓縮包,將解壓出的 data目錄一樣至於 resources目錄下( data 中的數據包很重要,是 HanLP工做所需的詞典和模型 )
建立 IO適配器
HanLP 提供了IO適配器,用戶能夠實現其提供的 com.hankcs.hanlp.corpus.io.IIOAdapter 接口以在不一樣的平臺(HDFS、Redis等)上運行HanLP,默認的 IO適配器 IOAdapter = com.hankcs.hanlp.corpus.io.FileIOAdapter 是基於普通文件系統的。
接下來咱們重寫一下 IOAdapter類,使用讀寫靜態資源文件的方法來讀取HanLP所需的詞典和模型數據( 即resources目錄下剛放置的 data目錄 )