數據分析中主要有兩類變量:算法
數據探索中,主要計算數據的一些統計量,並經過圖和表的形式進行總結排序
通常來講,獲得數據後首先檢查數據的質量,如:每一個變量的取值是否合乎數據定義,一般經過計算數據的一些統計量來檢查數據是否存在問題。另外一個問題是數據一般存在缺失值,進行數據探索時要計算每一個變量是否存在缺失值,以及缺失值的比例等。數據分析
統計變量包括兩個方面:數據可視化
對分類變量:變量
對數值變量:可視化
實際建模中,數據預處理是很是關鍵的一步,直接影響最終模型結果的好壞,大多數狀況下,原始數據都不宜直接用來建模,須要對數據進行預處理後才能夠建模,數據預處理包括:數據類型
基於樹的模型對數據不是特別敏感,線性迴歸對數據敏感方法
第一步:明確缺失數據的重要性,若是對目標值的預測不重要,直接刪除改變量,若是很重要,第一種方法一般採用可以處理缺失數據的算法進行建模(如:基於決策樹的模型),第二種方法是缺失值填充。統計
缺失值填充的經常使用方法:總結
k近鄰進行填充:假設樣本X_i的第j個變量缺失記爲x_ij,目標就是要估計x_ij,首先利用x_i中沒有缺失的變量,找到最相識的k個樣本,並用這k個樣本的第j個變量的平均值做爲x_ij的估計值,缺失算法填充對主要的控制參數k不敏感
對數值變量,每一個變量都有本身的單位,爲了解決這個問題,一般先進行數據標準化,通過標準化後的數據,均值都是0,標準差都是1
X_std = (X_i - X_mean)/X_標準差
歸一化是把數據變爲【0,1】之間:X_a = (X-X_min)/(X_max-X_min)
主成分分析PCA降維,可是新的變量是原來變量的線性組合,這樣通常難以解釋新變量
啓發式方法,計算變量之間兩兩之間的相關係數,接近1或者-1,就須要刪除其中一個變量,實際操做中能夠要求兩個變量之間相關係數的絕對值低於一個閥值(如0.75)
如:變量中有質量和體積,就能夠新增密度,刪除質量和體積等
決策樹模型可以較好的處理分類變量,線性迴歸和邏輯迴歸不能之間處理分類變量,一般把分類變量轉化爲多個啞變量,取值只能爲0和1,若是一個分類變量有k中不一樣的取值,能夠創建k-1個新的啞變量來代替,若是一個分類變量不一樣取值太多,須要進行簡化,如:體檢打分:按照從差到好A、B、C、D、E和F,爲了縮小變量取值範圍,A、B=差 ,C、D=中,E、F=好
離主流數據很遠的數據點定義爲離羣數據,一種經常使用的處理方法是對數據分組,具體是把全部樣本變量的取值從小到大排序,而後分紅若干組,而後對應組中數據的均值或者中位數來對他進行修正,經常使用的分組方法有:
一、直方圖、莖葉圖顯示樣本分佈的有效方法
二、柱狀圖一般用來研究分類變量不一樣取值的分佈狀況
三、箱線圖:下四分位數、上四分位數、中位數
四、散點圖研究變量之間的關係, x和y爲不一樣的兩個變量