概述:算法
對於文本挖掘,半結構化和非結構化文檔是最主要的數據集。文本挖掘有幾個主要的類型,好比聚類、文檔檢索與表示,以及異常檢測,文本挖掘的應用包括,但不侷限於,話題追蹤、文本總結與分類。對於網絡挖掘,網絡內容、結構和使用挖掘是網絡挖掘的一個重要應用。網絡挖掘也能夠用於用戶行爲建模、個性化觀點和內容註釋等。從另外一個方面講,網絡挖掘集成了來自挖掘技術和來自萬維網的信息。瀏覽器
1.文本挖掘與TM包服務器
流行的文本聚類算法包括基於距離的聚類算法包括基於距離的聚類算法、層次聚類算法和基於劃分的聚類算法等。網絡
流行的文本分類算法包括決策樹、基於模式的分類、支持向量機分類和貝葉斯分類等。dom
做爲流行的預處理步驟,這裏提供了詞提取算法的細節。網站
2.文本總結spa
文本總結的目標是生成一個簡潔且一致的結論或者輸入的主要信息的總結。大多數的總結系統執行以下3個步驟:.net
①構建一個包含輸入文本關鍵點的主要部分的臨時結構。代理
②結合第一步的輸出對輸入的句子評分。日誌
③用幾句話的總結來表明輸入文檔。
一種流行策略:去除不重要的信息、子句或句子,同時,創建分類器以確保關鍵信息沒有被去除,從另外一個角度看,就是在概括過程當中,相對重要的主題信息再次發揮做用。最後結果以連貫方式表示。
概括總結是一個動態的不間斷過程。第一步,咱們須要對一套舊文檔的數據集構建總結,即多個文檔的總結。第二步是概括新文件的總結。
2.1 主題表示
主題表示,好比主題簽名,在文檔總結系統中起着重要做用。
主題簽名定義爲一組相關術語,主題是目標概念,簽名是具備具體權重的與主題相關的術語列表。
2.2 多文檔總結算法
在這裏使用多文檔總結的基於圖的子主題劃分算法(Graph-Based Sub-topic Partition Algorithm,GSPSummary):
在此算法中還要用到排序算法:GSPRankMethod算法
2.3 最大邊緣相關算法
最大邊緣相關算法(Maximal Marginal Relevance,MMR)在每次句子選擇迭代中選擇最重要的句子,比較適合基於查詢和多文檔總結,可用來生成目錄。每個選擇的句子與已選擇的句子集具備最小相關性。
算法詳細解析: https://blog.csdn.net/ZJRN1027/article/details/81136761
3.問答系統
問答系統是一個與信息檢索、信息提取、天然語言處理和數據挖掘等相關的熱門話題。問答系統對大量文本集進行挖掘來尋找用必定精度回答用戶問題的短語或句子。
基本上存在3種類型的問答系統:槽填充(slot filling):查詢和應答的形式是相似的;有限域(limited domain):詞典和本體的領域是有限的;開放域(open domain):領域沒有限定。問答系統通常由3個主要部分構成:用戶界面;對問題的處理以及答案的生成部分。
4.網頁分類
分類能夠用於大型文章語料庫和網頁。一個流派能夠用目的和實物主義來定義,它表示被普遍接受的文本分類這些文本分類是根據共同的交際目的或者其餘功能特徵來定義的,而且這些分類是可拓展的。另外一流派還能夠基於小平面、語言的複雜性、主體以及圖數來定義。
對於網頁分類可能的解決方案包括,但不限於,樸素貝葉斯、k近鄰、支持向量機和做爲分類方法的樹節點等。
5.對報刊文章和新聞主題分類
5.1 基於N-gram的文本分類算法
在一個較長的字符串中,一個N字符(N-character)片斷稱爲N-gram。該算法的關鍵點是計算N-gram頻率的曲線。
6.使用網絡日誌的網絡使用挖掘
網絡使用挖掘表示網絡日誌(好比系統訪問日誌)和事務中的模式的發現與分析。輸出是網絡上用戶交互與資源間的關係。用戶行爲能夠給予這個輸出來識別。網站日誌記錄網絡用戶與網絡服務器、網絡代理服務器和瀏覽器交互的蹤影。
流行的網絡使用挖掘過程主要包括三個步驟:數據收集與預處理;模式發現;模式分析。
預處理包含數據清洗、會話識別和數據交換;模式發現包括路徑分析、關聯規則、序列模式以及聚類、分類規則。
6.1 基於形式概念分析的關聯規則挖掘算法
FCA算法
7.總結
本章中主要涵蓋了問答系統、主體檢測和網絡挖掘的介紹。
正文內容完結