Hanlp天然語言處理工具的使用演練

時間 2019-11-09

標籤 hanlp 天然語言處理工具使用演練简体版

原文原文鏈接

Hanlp是由一系列模型與算法組成的工具包，目標是普及天然語言處理在生產環境中的應用。Hanlp具有功能完善、性能高效、架構清洗、語料時新、可自定義的特色；提供詞法分析（中文分詞、磁性標註、命名實體識別）、句法分析、文本分類和情感分析等功能。程序員

本篇將用戶輸入的語句根據詞庫進行分詞、關鍵詞提取、摘要提取、詞庫維護。算法

工具類名稱：DKNLPBase編程

一、標準分詞網絡

方法簽名：List<Term> StandardTokenizer.segment(String txt);數據結構

返回：分詞列表。架構

簽名參數說明：txt:要分詞的語句。app

範例：下例驗證一段話第5個分詞是阿法狗。編程語言

程序清單1工具

public void testSegment() throws Exception性能

{

String text = "商品和服務";

List<Term> termList = DKNLPBase.segment(text);

assertEquals("商品", termList.get(0).word);

assertEquals("和", termList.get(1).word);

assertEquals("服務", termList.get(2).word);

text = "柯傑解說「李世石VS阿法狗第二局」結局竟是這樣";

termList = DKNLPBase.segment(text);

assertEquals("阿法狗", termList.get(5).word); // 可以識別"阿法狗"

}

二、關鍵詞提取

方法簽名：List<String> extractKeyword(String txt,int keySum);

返回：關鍵詞列表.

簽名參數說明：txt:要提取關鍵詞的語句，keySum要提取關鍵詞的數量

範例：給出一段話提取一個關鍵詞是「程序員」。

程序清單2

public void testExtractKeyword() throws Exception

{

String content = "程序員(英文Programmer)是從事程序開發、維護的專業人員。" +

"通常將程序員分爲程序設計人員和程序編碼人員，" +

"但二者的界限並不很是清楚，特別是在中國。" +

"軟件從業人員分爲初級程序員、高級程序員、系統" +

"分析員和項目經理四大類。";

List<String> keyword = DKNLPBase.extractKeyword(content, 1);

assertEquals(1, keyword.size());

assertEquals("程序員", keyword.get(0));

}

三、短語提取

方法簽名：List<String> extractPhrase(String txt, int phSum);

返回：短語

簽名參數說明：txt:要提取短語的語句，phSum短語數量

範例：給出一段文字，能表明文章的五個短語，第一個短語是算法工程師。

程序清單3

public void testExtractPhrase() throws Exception

{

String text = "算法工程師\n" +

"算法（Algorithm）是一系列解決問題的清晰指令，也就是說，可以對必定規範的輸入，在有限時間內得到所要求的輸出。" +

"若是一個算法有缺陷，或不適合於某個問題，執行這個算法將不會解決這個問題。不一樣的算法可能用不一樣的時間、" +

"空間或效率來完成一樣的任務。一個算法的優劣能夠用空間複雜度與時間複雜度來衡量。算法工程師就是利用算法處理事物的人。\n" +

"\n" +

"1職位簡介\n" +

"算法工程師是一個很是高端的職位；\n" +

"專業要求：計算機、電子、通訊、數學等相關專業；\n" +

"學歷要求：本科及其以上的學歷，大多數是碩士學歷及其以上；\n" +

"語言要求：英語要求是熟練，基本上能閱讀國外專業書刊；\n" +

"必須掌握計算機相關知識，熟練使用仿真工具MATLAB等，必須會一門編程語言。\n" +

"\n" +

"2研究方向\n" +

"視頻算法工程師、圖像處理算法工程師、音頻算法工程師通訊基帶算法工程師\n" +

"\n" +

"3目前國內外情況\n" +

"目前國內從事算法研究的工程師很多，可是高級算法工程師卻不多，是一個很是緊缺的專業工程師。" +

"算法工程師根據研究領域來分主要有音頻/視頻算法處理、圖像技術方面的二維信息算法處理和通訊物理層、" +

"雷達信號處理、生物醫學信號處理等領域的一維信息算法處理。\n" +

"在計算機音視頻和圖形圖像技術等二維信息算法處理方面目前比較先進的視頻處理算法：機器視覺成爲此類算法研究的核心；" +

"另外還有2D轉3D算法(2D-to-3D conversion)，去隔行算法(de-interlacing)，運動估計運動補償算法" +

"(Motion estimation/Motion Compensation)，去噪算法(Noise Reduction)，縮放算法(scaling)，" +

"銳化處理算法(Sharpness)，超分辨率算法(Super Resolution),手勢識別(gesture recognition),人臉識別(face recognition)。\n" +

"在通訊物理層等一維信息領域目前經常使用的算法：無線領域的RRM、RTT，傳送領域的調製解調、信道均衡、信號檢測、網絡優化、信號分解等。\n" +

"另外數據挖掘、互聯網搜索算法也成爲當今的熱門方向。\n" +

"算法工程師逐漸往人工智能方向發展。";

List<String> phraseList = DKNLPBase.extractPhrase(text, 5);

assertEquals(5, phraseList.size());

assertEquals("算法工程師", phraseList.get(0));

}

四、自動摘要

方法簽名：List<String> extractSummary(String txt, int sSum);

返回：摘要語句

簽名參數說明：txt:要提取摘要的語句，sSum摘要句子數量

範例：自動提取三句摘要句子。

程序清單4

public void testExtractSummary() throws Exception

{

String document = "算法可大體分爲基本算法、數據結構的算法、數論算法、計算幾何的算法、圖的算法、動態規劃以及數值分析、加密算法、排序算法、檢索算法、隨機化算法、並行算法、厄米變形模型、隨機森林算法。\n" +

"算法能夠寬泛的分爲三類，\n" +

"一，有限的肯定性算法，這類算法在有限的一段時間內終止。他們可能要花很長時間來執行指定的任務，但仍將在必定的時間內終止。這類算法得出的結果常取決於輸入值。\n" +

"二，有限的非肯定算法，這類算法在有限的時間內終止。然而，對於一個（或一些）給定的數值，算法的結果並非惟一的或肯定的。\n" +

"三，無限的算法，是那些因爲沒有定義終止定義條件，或定義的條件沒法由輸入的數據知足而不終止運行的算法。一般，無限算法的產生是因爲未能肯定的定義終止條件。";

List<String> sentenceList = DKNLPBase.extractSummary(document, 3);

assertEquals(3, sentenceList.size());

}

五、拼音轉換

方法簽名：List<Pinyin> convertToPinyinList(txt);

返回：拼音列表

簽名參數說明：txt:要轉換拼音的語句

範例：給出一段文字中第二個字的拼音。

程序清單5

public void testConvertToPinyinList() throws Exception

{

String text = "鴨綠江的綠跟綠色的綠不是一個讀音";

List<Pinyin> pinyinList = DKNLPBase.convertToPinyinList(text);

assertEquals(text.length(), pinyinList.size());

assertEquals(Pinyin.lu4, pinyinList.get(1));

}

六、添加詞庫

方法簽名：String addCK(String filePath);

返回：空—完成，其它—錯誤信息

簽名參數說明：filePath:新的詞庫文件，每一個詞使用回車換行分隔。

範例：讀取新詞庫文件，將文件內容中第7個詞「新美「添加到詞庫。

程序清單6

public void testAddCK() throws Exception

{

DKNLPBase.addCK("src/test/resources/custom_dictionary.txt");

String text = "互聯網家裝質量問題頻繁新美大殺入勝算幾何";

List<Term> termList = DKNLPBase.segment(text);

assertEquals("新美", termList.get(6).word);

}

七、新詞發現

方法簽名：

NewWordDiscover discover = new NewWordDiscover(max_word_len, min_freq, min_entropy, min_aggregation, filter);

discover.discovery(text, size);

返回：空—完成，其它—錯誤信息

簽名參數說明：max_word_len：控制識別結果中最長的詞語長度,默認值是 4;該值越大,運算量越大,結果中出現短語的數量也會越多。

min_freq：控制結果中詞語的最低頻率,低於該頻率的將會被過濾掉,減小一些運算量。因爲結果是按照頻率排序的,因此該參數其實意義不大。實際上，在接口中直接設爲了0，意思是全部候選詞都會出來。

min_entropy：控制結果中詞語的最低信息熵（信息的不肯定度）的值,通常取 0.5 左右。該值越大,越短的詞語就越容易被提取出來。

min_aggregation：控制結果中詞語的最低互信息值（字和字之間的關聯性）,通常取 50 到 200.該值越大,越長的詞語就越容易被提取出來,有時候會出現一些短語。

Filter：設爲 true 的時候將使用內部詞庫過濾掉「舊詞」。

Text：用於新詞發現的文檔。

Size：新詞個數。

範例：新詞發現。

程序清7

public void testFindNewWord() {

NewWordDiscover discover = new NewWordDiscover(4, 0.0f, 0.5f, 100f, true);

//讀取文件夾下因此文檔併合併成一篇文檔用於新詞發現

StringBuilder sbText = new StringBuilder();

File[] txtFiles = new File("src/test/resources/搜狗文本分類語料庫微型版/健康").listFiles();

int i = 0;

for (File file : txtFiles)

{

System.out.printf("[%d / %d] 讀取 %s 中...\n", ++i, txtFiles.length, file.getName());

sbText.append(IOUtil.readTxt(file.getPath()));

if (i == 100) break;

}

System.out.printf("對長度爲%d的語料進行分析中...\n", sbText.length());

List<WordInfo> wordInfoList = discover.discovery(sbText.toString(), 10);

//打印出發現的新詞

for (WordInfo wordInfo : wordInfoList) {

System.out.println(wordInfo.text);

}

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。