數據探索和預處理

一、數據類型

數據分析中主要有兩類變量:算法

  • 分類變量:分類變量取值一個集合,每個值表示變量的一個分類,分類變量能夠分爲順序變量和名稱變量
    • 順序變量能夠按照必定順序排列起來,如:評價體檢結果:不良<通常<良好
    • 名稱變量不存在順序關係,如:性別男或者女
  • 數值變量:自己是數值型,其次能夠進行數值操做,如:平均值和標準差等

二、數據探索

數據探索中,主要計算數據的一些統計量,並經過圖和表的形式進行總結排序

二、1經常使用的統計量

通常來講,獲得數據後首先檢查數據的質量,如:每一個變量的取值是否合乎數據定義,一般經過計算數據的一些統計量來檢查數據是否存在問題。另外一個問題是數據一般存在缺失值,進行數據探索時要計算每一個變量是否存在缺失值,以及缺失值的比例等。數據分析

統計變量包括兩個方面:數據可視化

  • 單個變量的統計量,如數值變量的平均值、極值,分類變量的全部不一樣取值等
  • 變量之間的統計量,如每兩個變量之間的相關係數

對分類變量:變量

  • 有多少個不一樣的取值
  • 每一個取值的頻率
  • 最多見的取值

對數值變量:可視化

  • 均值
  • 方差和標準差
  • 中位數
  • 下四分位數
  • 上四分位數
  • 最小和最大值
  • 偏度
  • 數據的具體分佈等

 

三、數據預處理

實際建模中,數據預處理是很是關鍵的一步,直接影響最終模型結果的好壞,大多數狀況下,原始數據都不宜直接用來建模,須要對數據進行預處理後才能夠建模,數據預處理包括:數據類型

  • 刪除部分數據,如直接刪除多餘或者無關的數據
  • 增長新的數據,從已有數據中構建新的特徵
  • 數據的變換,原始數據不適合直接建模,須要作一些變換以便建模

基於樹的模型對數據不是特別敏感,線性迴歸對數據敏感方法

3.1缺失值處理

第一步:明確缺失數據的重要性,若是對目標值的預測不重要,直接刪除改變量,若是很重要,第一種方法一般採用可以處理缺失數據的算法進行建模(如:基於決策樹的模型),第二種方法是缺失值填充。統計

缺失值填充的經常使用方法:總結

  • 使用平均值合做中位數填充
  • 使用k近鄰進行填充

k近鄰進行填充:假設樣本X_i的第j個變量缺失記爲x_ij,目標就是要估計x_ij,首先利用x_i中沒有缺失的變量,找到最相識的k個樣本,並用這k個樣本的第j個變量的平均值做爲x_ij的估計值,缺失算法填充對主要的控制參數k不敏感

3.2數據的標準化

對數值變量,每一個變量都有本身的單位,爲了解決這個問題,一般先進行數據標準化,通過標準化後的數據,均值都是0,標準差都是1

        X_std = (X_i - X_mean)/X_標準差

 

3.3數據的歸一化

歸一化是把數據變爲【0,1】之間:X_a = (X-X_min)/(X_max-X_min)

3.4刪除已有變量

主成分分析PCA降維,可是新的變量是原來變量的線性組合,這樣通常難以解釋新變量

啓發式方法,計算變量之間兩兩之間的相關係數,接近1或者-1,就須要刪除其中一個變量,實際操做中能夠要求兩個變量之間相關係數的絕對值低於一個閥值(如0.75)

  • 一、計算變量兩兩之間的相關係數,獲得一個dXd的矩陣,若該矩陣全部元素的絕對值都小於規定的閥值,退出。
  • 二、從該矩陣中選出相關係數絕對值最大的兩個變量(v和a)
  • 三、計算變量v和全部其它變量的相關係數的絕對值平均值,C1;一樣爲變量a計算對應C2;
  • 四、若是C1>=C2,則刪除變量v,不然刪除變量a
  • 五、重複2-4,直到剩餘變量兩兩之間相關係數的絕對值都小於規定的閥值

3.5數據變換

如:變量中有質量和體積,就能夠新增密度,刪除質量和體積等

 

3.6構建新的變量:啞變量

決策樹模型可以較好的處理分類變量,線性迴歸和邏輯迴歸不能之間處理分類變量,一般把分類變量轉化爲多個啞變量,取值只能爲0和1,若是一個分類變量有k中不一樣的取值,能夠創建k-1個新的啞變量來代替,若是一個分類變量不一樣取值太多,須要進行簡化,如:體檢打分:按照從差到好A、B、C、D、E和F,爲了縮小變量取值範圍,A、B=差 ,C、D=中,E、F=好

3.7離羣數據的處理

離主流數據很遠的數據點定義爲離羣數據,一種經常使用的處理方法是對數據分組,具體是把全部樣本變量的取值從小到大排序,而後分紅若干組,而後對應組中數據的均值或者中位數來對他進行修正,經常使用的分組方法有:

  • 等距分組:把整個數據分佈區間分紅若干個等長的子區間
  • 等頻分組:在劃分過程當中每一個區間樣本數同樣

四、數據可視化

一、直方圖、莖葉圖顯示樣本分佈的有效方法

二、柱狀圖一般用來研究分類變量不一樣取值的分佈狀況

三、箱線圖:下四分位數、上四分位數、中位數

四、散點圖研究變量之間的關係, x和y爲不一樣的兩個變量

相關文章
相關標籤/搜索