Java利用hanlp完成語句類似度分析的案例詳解

時間 2019-11-07

標籤 java 利用 hanlp 完成語句類似分析案例詳解欄目 Java 简体版

原文原文鏈接

分享一篇hanlp分詞工具使用的小案例，即利用hanlp分詞工具分析兩個中文語句的類似度的案例。供你們一塊兒學習參考！html

在作考試系統需求時，後臺題庫系統提供錄入題目的功能。在錄入題目的時候，因爲題目來源普遍，且參與錄入題目的人有多位，所以容易出現錄入重複題目的狀況。因此須要實現語句類似度分析功能，從而篩選出重複的題目並人工處理之。java

下面介紹如何使用Java實現上述想法，完成語句類似度分析：ide

一、使用HanLP完成分詞：工具

首先，添加HanLP的依賴：（jsoup是爲了處理題幹中的html標籤，去除html標籤獲得純文本的題幹內容）學習

分詞代碼以下，須要處理html標籤和標點符號：spa

private static List<String> getSplitWords(String sentence) {.net

// 去除掉html標籤3d

sentence = Jsoup.parse(sentence.replace(" ","")).body().text();htm

// 標點符號會被單獨分爲一個Term，去除之blog

return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：」「'。，、？ ".contains(s)).collect(Collectors.toList());

}

二、合併分詞結果，列出全部的詞：

三、統計詞頻，獲得詞頻構成的向量：

代碼以下，其中allWords是上一步中獲得的全部的詞，sentWords是第一步中對單個句子的分詞結果：

四、計算類似度（兩個向量的餘弦值）：

以上全部方法的完整代碼以下，使用SimilarityUtil.getSimilarity(String s1,String s2)便可獲得s1和s2的語句類似度：

package com.yuantu.dubbo.provider.questionRepo.utils;

import com.hankcs.hanlp.HanLP;

import com.hankcs.hanlp.dictionary.CustomDictionary;

import org.jsoup.Jsoup;

import java.util.ArrayList;

import java.util.Calendar;

import java.util.Collections;

import java.util.List;

import java.util.stream.Collectors;

public class SimilarityUtil {

static {

CustomDictionary.add("子類");

CustomDictionary.add("父類");

}

private SimilarityUtil() {

}

/**

* 得到兩個句子的類似度

* @param sentence1

* @param sentence2

* @return

public static double getSimilarity(String sentence1, String sentence2) {

List<String> sent1Words = getSplitWords(sentence1);

System.out.println(sent1Words);

List<String> sent2Words = getSplitWords(sentence2);

System.out.println(sent2Words);

List<String> allWords = mergeList(sent1Words, sent2Words);

int[] statistic1 = statistic(allWords, sent1Words);

int[] statistic2 = statistic(allWords, sent2Words);

double dividend = 0;

double divisor1 = 0;

double divisor2 = 0;

for (int i = 0; i < statistic1.length; i++) {

dividend += statistic1[i] * statistic2[i];

divisor1 += Math.pow(statistic1[i], 2);

divisor2 += Math.pow(statistic2[i], 2);

}

return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));

}

private static int[] statistic(List<String> allWords, List<String> sentWords) {

int[] result = new int[allWords.size()];

for (int i = 0; i < allWords.size(); i++) {

result[i] = Collections.frequency(sentWords, allWords.get(i));

}

return result;

}

private static List<String> mergeList(List<String> list1, List<String> list2) {

List<String> result = new ArrayList<>();

result.addAll(list1);

result.addAll(list2);

return result.stream().distinct().collect(Collectors.toList());

}

private static List<String> getSplitWords(String sentence) {

// 去除掉html標籤

sentence = Jsoup.parse(sentence.replace(" ","")).body().text();

// 標點符號會被單獨分爲一個Term，去除之

}

---------------------

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。