一 介紹
對於數據處理來講,整個處理的流程以下圖所示:
數據預處理——一般包括特徵選擇、維規約、規範化等方法。
數據挖掘——這部分的方法和技術很是多,在處理時主要根據本身的目的來選擇對應的方法最爲恰當。
數據後處理——主要包括模式過濾、可視化等,目的是爲了讓數據挖掘的結果利於使用和觀察。
爲了讓你們有一個清晰的框架,後面內容的思惟導圖以下展現:
二 瞭解數據
數據處理最關鍵的地方在於解決問題,並非使用的方法越複雜越好。不管方法多麼簡單,只要解決問題就是好的方法。爲了解決數據處理的相關問題,
第一步是觀察數據,瞭解數據相關的概念,而後對數據進行一些處理。這樣對後面具體使用哪一個方法來進行分析很是有用。
2.1數據預處理
數據預處理對於後續使用數據挖掘或者機器學習技術很是重要。在面臨大數據的當下,數據的維度一般很是的多,所以
數據預處理的一個主要任務就是下降數據維度。
2.1.1維歸約
所謂維歸約,就是要減小數據的特徵數目,摒棄掉不重要的特徵,儘可能只用少數的關鍵特徵來描述數據。人們老是但願看到的現象主要是由少數的關鍵特徵形成的,找到這些關鍵特徵也是數據分析的目的。維歸約中主要方法不少,下面介紹幾個:
(1)主成分分析
主成分分析是一種統計方法。經過正交變換將一組可能存在相關性的變量轉換爲一組線性不相關的變量,轉換後的這組變量叫主成分。
主成分分析的基本解決的問題是:正交屬性空間中的樣本點,如何使用一個超平面對全部樣本進行恰當的表達?若存在這樣的超平面,那麼它大概應具備這樣的性質:
最近重構性:樣本點到這個超平面的距離都足夠近。
最大可分性:樣本點在這個超平面上的投影能儘量分開。
根據這兩個性質便可獲得主成分分析的兩種等價推導。
優勢:
一、 可消除評價指標之間的相關影響,由於主成分分析在對原指標變量進行變換後造成了彼此相互獨立的主成分,並且實踐證實指標之間相關程度越高,主成分分析效果越好。
二、 可減小指標選擇的工做量,對於其它評價方法,因爲難以消除評價指標間的相關影響,因此選擇指標時要花費很多精力,而主成分分析因爲能夠消除這種相關影響,因此在指標選擇上相對容易些。
三、 當評級指標較多時還能夠在保留絕大部分信息的狀況下用少數幾個綜合指標代替原指標。
缺點:
1.在主成分分析中,咱們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都可以給出符合實際背景和意義的解釋(不然主成分將空有信息量而無實際含義)。
2.主成分的解釋其含義通常多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程當中不得不付出的代價。所以,提取的主成分個數m一般應明顯小於原始變量個數p(除非p自己較小),不然維數下降的「利」可能抵不過主成分含義不如原始變量清楚的「弊」。
3.只能處理線性降維。
(2)核主成分分析
線性降維方法假設從高維空間到低維空間的函數映射是線性的,然而在很多現實任務中,可能須要非線性映射才能找到恰當的低維嵌入。若是直接使用線性降維的方式,有可能使得數據喪失原有的低維結構。非線性降維的一種經常使用方法是,基於核技巧對線性降維方法進行「核化」。
(3)流形學習
流形學習是一類借鑑了拓撲流形概念的降維方法。「流形」是在局部與歐氏空間同胚的空間,換言之,它在局部具備歐氏空間的性質,能用歐氏距離進行距離的計算。這給降維方法帶來了啓發:若低維流形嵌入到高維空間,則數據樣本在高維空間中的分佈雖然比較複雜,但在局部上仍具備歐氏空間的性質。所以,能夠容易的在局部創建降維映射關係,而後設法將局部映射關係推廣到全局。
(4)多維縮放(Multiple Dimensional Scaling, MDS)
多維縮放是一種降維方法,要求原始空間中樣本之間的距離在低維空間中得以保持。
2.1.2特徵選擇
特徵選擇( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化,是從原始特徵中選擇出一些最有效特徵以下降數據集維度的過程,是提升學習算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習算法來講,好的學習樣本是訓練模型的關鍵。搜索策略可大體分爲如下3類:
(1)過濾式
Relief(Relevant Features)算法
(2)包裹式
LVW(Las Vegas Wrapper)算法
(3)嵌入式
L1/L2 正則化
思考:
特徵選擇也是一種降維方式,可是它處理的方式和主成分分析有區別,它直接刪除了某些特徵。而主成分分析的每一個特徵都是其餘特徵的線性組合。
2.2類似性衡量
在作分類或者聚類任務時經常須要估算不一樣樣本之間的類似性度量(Similarity Measurement),這時一般採用的方法就是計算樣本間的「距離」(Distance)。採用什麼樣的方法計算距離是很講究,甚相當繫到分類的正確與否。下面就是對經常使用的類似性度量做一個總結。
2.2.1 閔可夫斯基距離
閔氏距離不是一種距離,而是一組距離的定義。
缺點主要有兩個:
(1) 將各個份量的量綱(scale),也就是「單位」看成相同的看待了。
(2) 沒有考慮各個份量的分佈(指望,方差等)多是不一樣的。
2.2.2 標準化歐氏距離
標準化歐氏距離是針對簡單歐氏距離的缺點而做的一種改進方案。標準歐氏距離的思路:數據各維份量的分佈不同,所以先將各個份量都「標準化」到均值、方差相等。
若是將方差的倒數當作是一個權重,這個公式能夠當作是一種加權歐氏距離(Weighted Euclidean distance)。
2.2.3 馬氏距離
馬氏距離的優缺點:量綱無關,排除變量之間的相關性的干擾。
2.2.4 夾角餘弦
幾何中夾角餘弦可用來衡量兩個向量方向的差別,機器學習中借用這一律念來衡量樣本向量之間的差別。
2.2.5 漢明距離
兩個等長字符串s1與s2之間的漢明距離定義爲將其中一個變爲另一個所須要做的最小替換次數。例如字符串「1111」與「1001」之間的漢明距離爲2。
應用:信息編碼(爲了加強容錯性,應使得編碼間的最小漢明距離儘量大)。
2.2.6 傑卡德距離&傑卡德類似係數
2.2.7 相關係數&相關距離
2.3 度量學習
在機器學習中,對高維數據進行降維的主要目標是但願找到一個合適的低維空間,在此空間中進行學習能比原始空間性能更好。事實上,每一個空間對應了在樣本屬性上定義的一個距離度量,而尋找合適的空間,本質上就是在尋找一個合適的距離度量。所以,度量學習提出了直接學習出一個合適的距離度量的方案。
三 數據挖掘與機器學習
在進行完數據探索和預處理後,可能須要對本身的目標數據選擇具體的方法來進行進一步分析。數據探索的動機
一般是對數據進行分類、聚類和關聯分析以及異常檢測,所以下面的方法和技術按照這個順序介紹。
3.1分類
分類的方法多種多樣,具體來講,有下面介紹的主要方法。
3.1.1決策樹
**思考:**決策樹的決策過程很是直觀,容易被人理解,所以其除了能夠用於分類外,也可用於可視化,由於決策樹的結果很容易作成圖,結果比較清晰。
3.1.2 基於規則的分類器
基於規則的分類器是使用一組「if…then…」規則來對記錄進行分類的技術。
**思考:**基於規則的分類器是最好有創新點的分類方法,由於規則都是本身定的。
3.1.3最近鄰分類器
3.1.4 貝葉斯分類器
(1)樸素貝葉斯分類器
(2)半樸素貝葉斯分類器
(3)貝葉斯網
3.1.5 神經網絡
常見的神經網絡有:
(1)RBF網絡
(2)ART網絡
(3)SOM網絡
(4)級聯相關網絡
(5)Elman網絡
(6)Boltzman機
(7)深度學習
3.1.6支持向量機
3.2聚類
3.2.1劃分聚類
3.2.2繼承聚類
3.2.3密度聚類
3.2.4 基於圖的聚類
3.2.5可伸縮聚類算法
3.3關聯分析
3.3.1 Apriori算法
3.3.2 FP-growth算法
3.4 異常檢測
4、數據後處理
在分析完數據後,一般須要
使用合適的後處理方法對數據的結果進行顯示,其實在數據挖掘裏面主要稱做可視化數據挖掘。(注意:這裏雖然將數據可視化放在數據後處理小結裏面,可是
實際操做中,數據可視化一般也在數據預處理中使用,目的是爲了找到數據之間的關係,來決定後面使用什麼方法進行進一步分析。)
4.1 數據可視化
數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義爲,一種以某種概要形式抽提出來的信息,包括相應信息單位的各類屬性和變量。
4.1.1 少許數據可視化
(1)莖葉圖
它的思路是將數組中的數按位數進行比較,將數的大小基本不變或變化不大的位做爲一個主幹(莖),將變化大的位的數做爲分枝(葉),列在主幹的後面,這樣就能夠清楚地看到每一個主幹後面的幾個數,每一個數具體是多少。
(2)直方圖
直方圖(Histogram)又稱質量分佈圖。是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分佈的狀況。 通常用橫軸表示數據類型,縱軸表示分佈狀況。直方圖是數值數據分佈的精確圖形表示。
(4)盒狀圖
它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也能夠往盒圖裏面加入平均值(mean)。下四分位數、中位數、上四分位數組成一個「帶有隔間的盒子」。上四分位數到最大值之間創建一條延伸線,這個延伸線成爲「鬍鬚(whisker)」。
(5)餅圖
(6)百分位數圖
可表示爲:一組n個觀測值按數值大小排列。如,處於p%位置的值稱第p百分位數。
(7)散佈圖
製做散佈圖的目的是爲辨認一個品質特徵和一個可能緣由因素之間的聯繫。
4.1.2 可視化時間空間數據
(1)等高線圖
(2)曲面圖
排列在工做表的列或行中的數據能夠繪製到曲面圖中。若是您要找到兩組數據之間的最佳組合,可使用曲面圖。就像在地形圖中同樣,顏色和圖案表示具備相同數值範圍的區域。
(3)矢量場圖
在某些數據中,一個特性可能同時具備值和方向。在這種狀況下,同時顯示方向和量的圖多是有用的。
4.1.3 可視化高維數據
(1)矩陣
圖像能夠看做像素的矩陣陣列,其中每一個像素用它的顏色和亮度刻畫,數據矩陣是值的矩形陣列。
(2)平行座標系