文本挖掘

 文本挖掘html

 

1.      文本挖掘

1.1.    什麼是文本挖掘

文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,後者是無監督的挖掘算法。python

文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、天然語言處理、計算語言學、統計數據分析、線性幾何、機率理論甚至還有圖論。算法

 

1.2.    文本挖掘有什麼用

一、文本分類數據庫

文本分類是一種典型的機器學習方法,通常分爲訓練和分類兩個階段。文本分類通常採用統計方法或機器學習來實現。安全

 

二、文本聚類網絡

文本聚類是一種典型的無監督式機器學習方法,聚類方法的選擇取決於數據類型。數據結構

首先,文檔聚類能夠發現與某文檔類似的一批文檔,幫助知識工做者發現相關知識;其次,文檔聚類能夠將一類文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還能夠生成分類器以對文檔進行分類。機器學習

文本挖掘中的聚類可用於:提供大規模文檔內容總括;識別隱藏的文檔間的類似度;減輕瀏覽相關、類似信息的過程。工具

 

三、信息檢索學習

主要是利用計算機系統的快速計算能力,從海量文檔中尋找用戶須要的相關文檔。

 

四、信息抽取

信息抽取是把文本里包含的信息進行結構化處理,變成表格同樣的組織形式。輸入信息抽取系統的是原始文本,輸出的是固定格式的信息。

 

五、自動文摘

利用計算機自動的從原始文檔中提取出文檔的主要內容。互聯網上的文本信息、機構內部的文檔及數據庫的內容都在成指數級的速度增加,用戶在檢索信息的時候,能夠獲得成千上萬篇的返回結果,其中許可能是與其信息需求無關或關係不大的,若是要剔除這些文檔,則必須閱讀徹底文,這要求用戶付出不少勞動,並且效果很差。

自動文摘可以生成簡短的關於文檔內容的指示性信息,將文檔的主要內容呈現給用戶,以決定是否要閱讀文檔的原文,這樣可以節省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文。

自動文摘具備如下特色:

(1)自動文摘應能將原文的主題思想或中心內容自動提取出來。

(2)文摘應具備概況性、客觀性、可理解性和可讀性。

(3)可適用於任意領域。

按照生成文摘的句子來源,自動文摘方法能夠分紅兩類,一類是徹底使用原文中的句子來生成文摘,另外一類是能夠自動生成句子來表達文檔的內容。後者的功能更強大,但在實現的時候,自動生成句子是一個比較複雜的問題,常常出現產生的新句子不能被理解的狀況,所以目前大多用的是抽取生成法。

 

六、自動問答

自動問答是指對於用戶提出的問題,計算機能夠自動的從相關資料中求解答案並做出相應的回答。自動問答系統通常包括 3 個組成部分:問題分析、信息檢索和答案抽取。

 

七、機器翻譯

利用計算機將一種源語言轉變爲另外一種源語言的過程。

 

八、信息過濾

指計算機系統能夠自動的進行過濾操做,將知足條件的信息保留,將不知足條件的文檔過濾掉。信息過濾技術主要用於信息安全領域。

 

九、自動語音識別

自動語音識別就是將輸入計算機的天然語言轉換成文本表示的書面語。

 

1.3.    文本挖掘操做步驟

一、獲取文本

現有數據導入,或者爬蟲獲取網絡文本。

 

二、文本預處理

指剔除噪聲文檔以改進挖掘精度,或者在文檔數量過多時僅選取一部分樣本以提升挖掘效率。

例如網頁中存在不少沒必要要的信息,好比說一些廣告,導航欄,html、js代碼,註釋等等並不須要的信息,能夠刪除掉。若是是須要正文提取,能夠利用標籤用途、標籤密度斷定、數據挖掘思想、視覺網頁塊分析技術等等策略抽取出正文。

 

三、文本的語言學處理

(1)分詞

接下來的步驟就是分詞。

(2)詞性標註

同時也可使用詞性標註。經過不少分詞工具分出來的出會出現一個詞,外加該詞的詞性。好比說啊是語氣助詞。

 

(3)去除停用詞

好比說句號、是、的等詞,沒有什麼實際的意義。然而這些詞在全部的文章中都大量存在,並不能反應出文本的意思,能夠處理掉。固然針對不一樣的應用還有不少其餘詞性也是能夠去掉的,好比形容詞等。

 

四、文本的數學處理-特徵提取

咱們但願獲取到的詞彙,既能保留文本的信息,同時又能反映它們的相對重要性。若是對全部詞語都保留,維度會特別高,矩陣將會變得特別稀疏,嚴重影響到挖掘結果。因此這就須要特徵提取。

特徵選取的方式有4種:

(1)用映射或變換的方法把原始特徵變換爲較少的新特徵;

(2)從原始特徵中挑選出一些最具表明性的特徵;

(3)根據專家的知識挑選最有影響的特徵;

(4)用數學的方法進行選取,找出最具分類信息的特徵,這種方法是一種比較精確的方法,人爲因素的干擾較少,尤爲適合於文本自動分類挖掘系統的應用。

 

五、分類聚類

通過上面的步驟以後,咱們就能夠把文本集轉化成一個矩陣。咱們可以利用各類算法進行挖掘,好比說若是要對文本集進行分類,分類經常使用的方法有:簡單貝葉斯分類法,矩陣變換法、K-最近鄰參照分類算法以及支持向量機分類方法等。

 

聚類方法一般有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰聚類法、分級聚類法等。

六、數據可視化

最後一步固然就是數據結構的可視化展現,經過合適的可視化圖形生動形象展現,讓讀者聽衆更容易理解你所要表達的信息。

文本可視化最經常使用的圖形就是詞雲。

 

4、文本挖掘工具

一、python語言jieba、gensim、sklearn、WordCloud和matplotlib包

二、R語言jieba、tm、tmcn、Rwordseg和wordcloud包

三、SAS text miner

四、SPSS Text Mining

相關文章
相關標籤/搜索