數據分析

時間 2019-11-11

標籤數據分析简体版

原文原文鏈接

1、主成分分析PCA

1. 基本思想

主成分分析是一類經常使用的針對連續變量的降維方法，選取可以最大化解釋數據變異的成分，將數據從高維降到低維，同時保證各個維度之間正交。html

主成分分析的具體方法是對變量的協方差矩陣或相關係數矩陣求取特徵值和特徵向量，經證實，對應最大特徵值的特徵向量，其方向正是協方差矩陣變異最大的方向，依次類推，第二大特徵值對應的特徵向量，是與第一個特徵向量正交且能最大程度解釋數據剩餘變異的方向，而每一個特徵值則可以衡量各方向上變異的程度。所以，進行主成分分析時，選取最大的幾個特徵值對應的特徵向量，並將數據映射在這幾個特徵向量組成的參考系中，達到降維的目的（選擇的特徵向量數量低於原始數據的維數）。dom

當分析中所選的變量具備不一樣的量綱，且差異比較大的狀況下，應選擇相關係數矩陣進行主成分分析。函數

主成分分析適用於變量之間具備相關關係，變量在三維空間中呈現橢球形分佈。多變量之間有顯著的強線性相關，代表主成分分析是有意義的。工具

2.主成分的計算公式

3.散點圖解

原始數據可使用原座標系中的向量來表示，協方差矩陣的特徵向量爲A和B，因爲A方向的變異遠大於B方向，所以，將全部點映射到A上，並使用A做爲參考系來᧿述數據，這樣忽略了數據在B方向上的變異，但卻將二維的數據下降到了一維。

優化

4. 主成分分析的步驟

5. 選擇主成分個數

主成分分析的目的是簡化變量，一遍保留的主成分應該小於原始變量的個數。根據主成分分析的目的，個數選取的方法是有區別的。

具體保留幾個主成分，應該遵循兩個原則（兩個原則同時使用，可只考慮一個）：

1. 單個主成分解釋的變異不該該小於1（特徵根值布小於1）

2. 選取的主成分的累計變異應該達到80% ~ 90%（累計特徵根值佔總特徵根值80%以上）

6. 應用場景

主成分法的應用大體分爲三個方面：一、對數據作綜合打分；二、降維以便對數據進行描述；三、爲聚類或迴歸等分析提供變量壓縮。在應用時要可以判斷主成分法的適用性，可以根據需求選取合適的主成分數量。

2、因子分析

1. 基本思想

主成分分析時通常狀況下不能對主成分所表明含義進行業務上的解讀，由於主成分方向上通常不會剛好某些變量權重大，而另一些變量權重都小，這也表如今主成分權重的造成的散點圖會偏離座標軸。若是能夠將主成分的座標軸進行旋轉，使一些變量的權重的絕對值在一個主成分上達到最大，而在其餘主成分上絕對值最小，這樣就達到了變量分類的目的。對應地，這種維度分析方法被稱爲因子分析。

因子分析是一類經常使用的連續變量降維並進行維度分析的方法，其常常採用主成分法做爲其因子載荷矩陣的估計方法，在特徵向量方向上，使用特徵值的平方根進行加權，最後經過因子旋轉，使得變量的權重在不一樣因子上更加兩極分化。經常使用最大方差法進行因子旋轉，這種方法是一種正交旋轉。

2. 正交旋轉因子模型

3. 因子分析的通常步驟

4. 因子載荷矩陣的估計

通常使用主成分分析方法。選擇合適的因子數量，這一步須要主成分分析的結果，因子個數的肯定標準比主成分分析寬，好比，特徵根大於0.7就能夠考慮保留。

5. 因子旋轉

旋轉的目的是使因子負荷兩級分化，要麼接近0，要麼接近-1或1，這樣易於對因子作出解釋。

分爲：正交旋轉和斜交旋轉。

正交旋轉，因子間的信息不會重疊。最經常使用的是最大方差旋轉，是一種正交旋轉，目的是使載荷平方的方差最大化。

6. 因子分析的應用

因子分析通主成分分析相似，適用於變量之間存在較強的線性關係的狀況，可以綜合出幾項反映變量共同特別的指標。最簡單的方法就是計算變量的相關係數矩陣，要是大部分相關係數值小於0.3，就不適用因子分析。還有一些檢驗方法，如巴特利特球形檢驗，KMO檢驗等。

因子分析做爲維度分析的手段，是構造合理的聚類模型和穩健的分類模型的必然步驟，用於下降解釋變量共線性帶來的模型不穩定性。

3、聚類分析

聚類分析是一種分類的多元統計分析方法。按照個體或樣品的特徵將它們分類，使同一類別內的個體具備儘量高的同質性(homogeneity)，而類別之間則應具備儘量高的異質性。

1.聚類分析的基本邏輯

聚類分析的基本邏輯是計算觀測值之間的距離或者類似度。距離較小、類似度較高，按照類似度進行分組。htm

具體能夠分爲三個步驟：對象

1. 從N個觀測和K個熟悉數據開始；blog

2. 計算N個觀測兩兩之間的距離；排序

3. 將距離近的觀測聚爲一類，將距離遠的分爲不一樣的類，最終達到組間的距離最大化，組內的距離最小化。get

2.聚類分析的方法種類

系統聚類法（層次聚類）：該方法能夠獲得較理想的分類，可是難以處理大量樣本。

K-means聚類（非層次聚類、快速聚類）：能夠處理大量樣本，可是不能提供類類似度信息，不能交互的決定聚類個數。

兩步法聚類（先使用K-means聚類，後使用層次聚類）

3. 系統聚類

系統聚類，也就是層次聚類，指的是造成類類似度層次圖譜，便於直觀的肯定類之間的劃分。其基本思想在於令 n 個樣本自成一類，計算其兩兩之間的類似性，此時類間距離與樣本間距離是等價的。把測度最小的兩個類合併，而後按照某種聚類方法計算類間的距離，再按最小距離準則並類。這樣每次減小一類，持續下去，直到全部樣本都歸爲一類爲止。該方法能夠獲得較理想的分類，可是難以處理大量樣本。

1. 基本步驟

（1）對數據進行變換處理；（不是必須的，當數量級相差很大或指標變量具備不一樣單位時是必要的）

（2）構造n個類，每一個類只包含一個樣本；

（3）計算n個樣本兩兩間的距離；

（4）合併距離最近的兩類爲一新類；

（5）計算新類與當前各種的距離，若類的個數等於1，轉到6；不然回4；

（6）畫聚類圖；

（7）決定類的個數，從而得出分類結果。

2. 數據預處理

不一樣要素的數據每每具備不一樣的單位和量綱，其數值的變異多是很大的，這就會對分類結果產生影響，所以當分類要素的對象肯定以後，在進行聚類分析以前，首先要對連續變量進行處理。

在聚類分析中，經常使用的聚類要素的數據處理方法有以下幾種：

①Z soroes標準化

②標準差標準化

③正態標準化

通過這種標準化所得的新數據，各要素的極大值爲1，極小值爲0，其他的數值均在0與1之間。

爲了獲得合理的聚類結果，不但要對數據進行標準化，還要對變量進行維度分析。通常採用因子分析進行維度分析，根據樣本的特徵選擇因子轉換的方法，對觀測數據進行處理，並在保存的因子結果上進行聚類分析。

若是變量呈偏態分佈，能夠對數據進行函數變換來克服偏態性，如對數變換。

3.觀測點間距離的計算

在聚類時的一個重要問題是定義樣本距離，通常使用歐式距離或閔可夫斯基距離，閔可夫斯基距離公式以下：

4. 觀測類間聚類的計算

另外一個重要爲題是定義兩個類之間的距離，方法包括平均聯接法、重心法和 Ward 最小方差法。

（1）平均鏈接法又稱全鏈接法，即將一類的全部觀測值與另外一類的全部觀測值分別作兩兩之間的距離，求全部距離的平均值做爲類間距離：

（2）重心法計算的是觀測類各自重心之間的距離：

（3）Ward 最小方差法：基於方差分析的思想，若是分類合理，則同類樣本間離差平方和應當較小，類與類間離差平方和應當較大。 Ward 最小方差法並類時，老是使並類致使的類內離差平方和增量最小。所以，該方法不多受到異常值的影響，在實際應用中的分類效果較好，適用範圍廣。但該方法要求樣品間的距離必須是歐氏距離。

4. K-means聚類

K-means 聚類是一種快速聚類法，適合應用於大樣本量的數據。其方法能夠總結爲：首先隨機選擇 K 個點做爲中心點，全部樣本與這 K 箇中心點計算距離，距離最近的樣本被歸爲與中心點同類的點，而後從新計算每一個類的中心，再次計算每一個樣本與類中心的距離，並按照最短距離原則從新劃分類，如此迭代直至類再也不變化爲止。

1. 基本步驟

（1）設定K值，肯定聚類數（軟件隨機分配聚類中心所需的種子）。

（2）計算每一個記錄到類中心的距離（歐式聚類），並分紅K類。

（3）而後把K類中心（均值）做爲新的中心，從新計算距離。

（4）迭代到收斂標準中止。

2. 優缺點

該方法的優勢是計算速度快，可用於樣本量較大的數據，缺點是須要人爲設定聚類的數量 K，同時其初始點的不一樣選擇可能會造成不一樣的聚類結果，所以經常使用屢次選擇初始中心點，並對最終的多個聚類結果取平均的方法來構建穩定的模型。

3. 應用實例

發現異常值：如刷信用級別的違規者的行爲會與正常消費行爲在消費頻次、平均消費金額等方面差別比較大，對其進行定位至關於發現異常點，所以要求對變量的轉換不能改變其原有分佈形態。經常使用的標準化方法如中心標準化、極差標準化不會改變分佈形態，並且在聚類前每每須要使用標準化來消除變量的量綱。

4、對應分析

對應分析是一種數據分析技術，它可以幫助咱們研究由定性變量構成的交互彙總表來揭示變量間的聯繫。交互表的信息以圖形的方式展現。主要適用於有多個類別的定類變量，能夠揭示同一個變量的各個類別之間的差別，以及不一樣變量各個類別之間的對應關係。適用於兩個或多個定類變量。

1. 類型

簡單對應分析：對兩個分類變量進行的對應分析

多重對應分析：對多個分類變量進行的對應分析（最優尺度）

連續型變量的分析和分類變量的分析，連續型變量能夠先分箱後再進行對應分析。

2. 對應分析和列聯表分析的關係

在對兩個分類變量進行分析時，列聯表是經常使用的方式，但若是變量分類水平較多，每每很難直觀地發現分類水平之間的相互聯繫，爲此會使用對應分析方法來處理這個問題。
對應分析是用於尋求列聯表的行和列之間的關係的一種低維圖形表示法，它能夠從直覺上揭示同一分類變量的各個類別之間的差別，以及不一樣分類變量各個類別之間的對應關係。

在對應分析中，列聯表的每一行對應（一般是二維）圖中的一點，每一列也對應同一圖中的一點。本質上，這些點都是列聯表的各行各列向一個二維歐式空間的投影，這種投影最大限度的保持了各行或各列之間的關係。

3. 對應分析和列聯表分析的關係

對應分析是在主成分法基礎上發展起來的一種技術，其經過對列聯表進行轉換，使得行與列各自的特徵值分別相等，分別對行與列進行主成分分解時，可使得各自的協方差矩陣的特徵值相等，使用特徵值的平方根對主成分方向的數據進行加權，保證了行與列能夠在同一尺度下進行比較。

4.對應圖的解讀方法

1-整體觀察：
2-觀察鄰近區域
3-向量分析——偏好排序
4-向量的夾角——餘弦定理

5-從距離中的位置看

6-座標軸定義和象限分析

7-產品定位：理想點與反理想點模型

8-市場細分和定位

http://shenhaolaoshi.blog.sohu.com/133694659.html

5.優缺點

簡單對應分析的優勢：
定性變量劃分的類別越多，這種方法的優點越明顯。

揭示行變量類別間與列變量類別間的聯繫。

將類別聯繫直觀地表如今二維圖形中（對應圖）。

能夠將名義變量或次序變量轉變爲間距變量。
簡單對應分析的缺點：

不能用於相關關係的假設檢驗。

維度要由研究者決定。

有時候對應圖解釋比較困難。

對極端值比較敏感。

5、多維尺度分析

多維尺度分析（MDS)，是基於研究對象之間的類似性或距離，將研究對象在一個低維（二維或三維）的空間形象地表示出來，進行聚類或維度分析的一種圖示法。經過多維尺度分析所呈現的空間定位圖，能簡單明瞭地說明各研究對象之間的相對關係。

1.類似性或距離測量

多維尺度分析用於衡量樣本間相異性（距離）或類似性程度。因爲變量類型的不一樣，樣本間的距離或類似性每每也須要採用不一樣的方法來衡量，好比閔可夫斯基距離、卡方距離、餘弦類似度等等，應當熟知距離/類似性測量的原理和適用性，並正確使用。

二、多維尺度分析原理

三、多維尺度分析的應用

在市場研究領域主要研究消費者的態度，衡量消費者的知覺及偏好。涉及的研究對象很是普遍，例如：汽車、洗頭水、飲料、快餐食品、香菸和國家、企業品牌、政黨候選人等。經過MDS分析可以爲市場研究提供有關消費者的知覺和偏好信息在市場研究領域主要研究消費者的態度，衡量消費者的知覺及偏好。

在須要比較樣本間相異性或類似性的場合下，可使用多維尺度分析，例如比較不一樣品牌/產品間類似性，用以尋找潛在的競爭對手。最終的結果每每是在二維感知圖上來展現。

四、多維尺度分析與對應分析的區別

多維尺度分析描述的是行變量之間的關係，對應分析是描述行變量和列變量之間的關係。

6、預測性數據分析方法

1. 簡單線性迴歸

2. 多元線性迴歸

1.多元迴歸方程

2. 線性迴歸的五個假設

線性迴歸的重點與難點在於模型調優，整個優化過程能夠看作是在將模型逐步調整到符合線性迴歸五個經典假設的過程，由於模型越符合其前ᨀ假設，則預測結果越可靠。線性迴歸的五個假設爲：
● 假設一：解釋變量和被解釋變量之間存在線性關係；（違反，則模型預測能力差）
● 假設二：解釋變量和擾動項不能相關；（違反則迴歸係數估計有偏）
● 假設三：解釋變量之間不能強線性相關（膨脹係數）；（違法則迴歸係數的標準偏差被放大）
● 假設四：擾動項獨立同分布（異方差檢驗、 DW 檢驗）；（違反則擾動項的標準偏差估計不許，T檢驗失效）
● 假設五：擾動項服從正態分佈（ QQ 檢驗）。（違反則T檢驗失效）

3. 模型變量的選擇

模型變量選擇的方法主要有：向前迴歸法、向後迴歸法、逐步迴歸法

4.線性迴歸分析的步驟

（ 1）要對數據作基本的分析，分析的是潛在的解釋變量和被解釋變量之間可能存在的基本關係；
（ 2）能夠根據初步分析的結果構建候選模型；
（ 3）對候選模型進行有效性假設檢驗；
（ 4）對模型的共線性和影響點進行檢測，修正模型可能存在的誤差；
（ 5）根據檢測的結果對模型進行修正；
（ 6）對修正後的模型從新進行必要的有效性假設檢驗、共線性和影響點檢測，直到模型再也不須要進一步修正爲止；
（ 7）對修正後的模型進行預測檢驗。創建有效的建模循環才能保證模型的正確性、有效性和精確性。

5. 殘差假設的檢查

殘差須要知足獨立同分布和正態分佈兩個假設。

能夠經過檢查殘差散點圖和殘差圖對殘差的線性迴歸假設進行檢查。殘差散點圖主要看殘差是否和某個解釋變量存在曲線關係，以及殘差的離散程度是否和某個解釋變量有關。殘差圖主要是看殘差是否有離羣值。

（1）殘差與自變量散點圖呈拋物線。說明解釋變量X和被解釋變量Y存在高階非線性關係。修正的方法是在模型中加絨解釋變量X的高階形式，如X2

（2）殘差分佈呈異方差。修正的方法最簡單的是對Y取對數。

（3）殘差呈自相關。修正的方法較簡單的是加入被解釋變量Y的一階滯後項進行迴歸。使用DW檢驗確認殘差的自相關關係。

因爲沒法觀察到偏差項 u t,只能經過殘差項 e t來判斷 u t 的行爲。若是 u t或 e t呈出下圖(a) -(d) 形式，則表示u t 存在自相關，若是 ut 或et 呈現圖中 (e) 形式，則表示 u t不存在自相關。

DW=2 不相關；DW=0，擾動徹底負相關；DW=4，擾動徹底正相關。

殘差是否正態分佈能夠觀察QQ圖分佈。

6.離羣值

離羣值可能會致使擬合曲線產生誤差。通常使用統計量來識別可能的離羣值。

統計量：學生化殘差、RSTUDENT殘差、COOK‘s D、DFBETAS、DFFITS

處理離羣值：從新檢查數據，確認數據的有效性。若是有效，要分析包含和刪除離羣值的結果。爲了更好的擬合數據，可能須要在模型中進入高階項。

7. 共線性

識別變量共線性的工具：方差膨脹值、共線性分析（特徵值和條件指數）、無截距的共線性分析

方差膨脹值VI大於10，強線性相關

3.邏輯迴歸

當反應變量是分類變量時，構造模型須要用到邏輯迴歸。

1. 分類變量的相關性檢驗

分類變量之間的相關性通常能夠採用列聯表分析或卡方檢驗的方法。

1. 列聯表

列聯表是兩個分類變量的分類水平之間造成的交叉頻數表，經過計算行百分比或列百分比，對實際頻率和指望頻率進行對比分析。

2,.卡方檢驗

卡方檢驗可用於兩分類變量相關性的檢驗，卡方統計量以下：

能夠看到統計量᧿述的其實是觀察頻數與指望頻數之間的差值。

2.邏輯迴歸方程

3. 評判模型表現優劣的方法

（1）一致性分析：計算一致的對數，不一致的對數、相等的對數來評估模型是否很好的預測了自身的數據。C值越大模型表現力越好。

（2）混淆矩陣的解讀和經過 ROC 曲線評判模型的方法。
經過混淆矩陣，可以肯定預測模型的靈敏度和特異度。靈敏度指的是模型「擊中」的機率，而特異度指的是模型「正確否認」的機率。公式爲靈敏度=A/（A+B）；特異度=D/（C+D）。

ROC 曲線是基於靈敏度和特異度畫出的曲線。ROC 曲線下面積指的是 ROC 曲線和底線、右線圍成的面積。因爲靈敏度和特異度的取值範圍都在[0,1]之間， ROC 曲線下面積值越接近1，代表模型預測能力越強。

七、時間序列

時間序列：系統中某一變量或指標的數值或統計觀測值，按時間順序排列成一個數值序列，就稱爲時間序列(Time Series)，又稱動態數據。

1. 趨勢分解法

1. 時間序列變化形式

時間序列主要考慮的因素是：

長期趨勢(Long-term trend)

時間序列可能至關穩定或隨時間呈現某種趨勢。
時間序列趨勢通常爲線性的(linear)，二次方程式的 (quadratic)或指數函數(exponential function)。

季節性變更(Seasonal variation)

按時間變更，呈現重複性行爲的序列。
季節性變更一般和日期或氣候有關。
季節性變更一般和年週期有關。

週期性變更(Cyclical variation)

相對於季節性變更，時間序列可能經歷「週期性變更」。
週期性變更一般是由於經濟變更。

隨機影響(Random effects)

如圖所示，黑色的曲線表明時間序列的原始取值，而根據原始序列的時間走勢就能肯定該時間序列的長期趨勢變更。而不少行業都是存在季節性變更的趨勢的。好比，運輸行業、風力發電行業。又好比，水果和蔬菜價格等。而循環趨勢也成爲週期趨勢。好比經濟週期趨勢。相對而言，循環和季節性趨勢是原始序列中較爲穩健的趨勢變更。而無規則的隨機趨勢是難以進行預測的，且波動較大。所以，對於時間序列的拆分，一般是將較爲穩健的長期循環以及季節性趨勢拆分出來，而不考慮隨機趨勢的影響。