如何在java中去除中文文本的停用詞

1.  總體思路html

第一步:先將中文文本進行分詞,這裏使用的HanLP-漢語言處理包進行中文文本分詞。java

第二步:使用停用詞表,去除分好的詞中的停用詞。git

2.  中文文本分詞環境配置github

使用的HanLP-漢語言處理包進行中文文本分詞。工具

·HanLP-漢語言處理包下載,能夠去github上下載測試

·HanLP 的環境配置有兩種方式:方式1、Maven;方式2、下載jar、data、hanlp.properties。搜索引擎

·官方環境配置步驟也能夠在github上查詢到。3d

·環境配置好後,java使用HanLP進行中文分詞文檔以下:hanlp.linrunsoft.com/doc.htmlorm

3.  下載停用詞表htm

停用詞表能夠去百度或者其餘搜索引擎檢索一份,很容易就找到!

4.  去除停用詞工具類

使用這個工具類的以前,請先完成中文文本分詞環境配置,並測試一下。停用詞 .txt 文件路徑請修改成本身的本地路徑。

圖1

5.  工具類測試

5.1  測試代碼

public class test {

    public static void main(String args[]) {

        try {

            System.out.println(FormatUtil.RemovalOfStopWords("牀前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

 

5.2  測試結果

相關文章
相關標籤/搜索