淺析數據預處理

數據分析通常分爲兩條主線:算法

第一條主線是數據層面ide

第二條主線是業務層面函數


數據分析的通常步驟:工具

產生數據—>收集數據—>存儲數據—>提取數據—>數據預處理—>數據分析—>數據可視化—>數據報告的解釋說明oop


1、數據預處理的必要性編碼

目前,數據挖掘的研究工做大都集中在算法的探討而忽視對數據處理的研究。事實上,數據預處理對數據挖掘十分重要,一些成熟的算法對其處理的數據集合都有必定的要求:好比數據的完整性好,冗餘性小,屬性的相關性小等。spa

數據預處理是數據挖掘的重要一環,並且必不可少。要使挖掘算法挖掘出有效的知識,必須爲其提供乾淨,準確,簡潔的數據。然而,實際應用系統中收集的數據一般是「髒」數據。3d


2、數據存在的問題blog

不完整: # 缺乏數據值       #缺乏一些重要屬性          #僅包含彙集數據get

有噪聲:#包含錯誤或者孤立點     #例如,工資=-100   

數據不一致:#在編碼或者命名上存在差別           #例如,過去的等級「1,23″而如今的等級「A,B,C        #重複記錄間的不一致性


3、數據存在問題的緣由

不完整數據的成因

數據收集的時候就缺少合適的值

數據收集時和數據分析時的不一樣考慮因素

人爲/硬件/軟件問題

噪聲數據(不正確的值)的成因

數據收集工具的問題

數據輸入時的人爲計算機錯誤

數據傳輸中產生的錯誤

數據不一致性的成因

不一樣的數據源

違反了函數依賴性


4、預處理重要性

沒有高質量的數據,就沒有高質量的挖掘結果

高質量的決策必須依賴高質量的數據

例如,重複值或者空缺值將會產生不正確的或者使人誤導的統計

數據倉庫須要對高質量的數據進行一致地集成

PS:數據預處理是數據分析流程中工做量最大的


5、數據預處理的常規方法

1數據清洗

去掉噪聲和無關數據

1

2數據集成

將多個數據源中的數據結合起來存放在一個一致的數據存儲中

21

3數據變換

把原始數據轉換成爲適合數據挖掘的形式

31

4數據歸約

主要方法包括:數據立方體彙集,維歸約,數據壓縮,數值歸約,

離散化和概念分層等

41


淺析下實際工做中數據分析的預處理階段:

數據層面的分析:

數據預處理:【空值,缺失值,異常值等】—>處理方法主要是刪,填(通常填中位數,均值等)


處理的邏輯操做:通常邏輯順序以下

1.異常值:測量值減去均值大於2倍的標準差,我則認爲這是異常值。—>箱型圖也能看出異常值。datahoop跑箱型圖也能看出異常值。

也能夠不處理:不處理也要說明理由。可是主要看佔比和實際業務狀況。記住現實生活中重要的一點:存在即合理。


2.數據標準化:把數據縮放。先構造新變量後再作標準化,防止量綱變大影響數據模型算法。


3.量綱:量綱的大小變化會影響大多數,自變量波動很大時會影響大多數數據模型算法。因此咱們要作數據標準化。數據標準化就是把全部數據歸於一個範圍區間內。—>Z值公式:自變量x=(原值減去均值)除以標準差。


4.共線性:目的是降維,共線性——相關係數矩陣。

相關係數小於0.3即爲弱相關。相關係數0.7到0.9左右的話即認爲是強相關。

作算法以前,必定要去看相關性。

想要降相關性的方法—>通常有兩種方法:1.增大樣板容量的量2.構造新變量(增量法和比值法)—>降維(因子分析和主成份分析)。


主成分分析與因子分析的區別:

主成分分析:主成分分析就是設法將原來衆多具備必定相關性,從新組合成一組新的互相無關的綜合指標來代替原來的指標。綜合指標即爲主成分。所得出的少數幾個主成分,要儘量地保留原始變量的信息,且彼此不相關。

因子分析是研究如何以最少的信息丟失,將衆多原始變量分解成少數幾個因子變量,以及如何使因子變量具備較強的可解釋性的一種多元統計分析方法。


因子分析:因子分析不是對原始變量的從新組合,而是對原始變量進行分解,分解爲公共因子和特殊因子兩部分。具體說,就是要找出某個問題中科直接測量的具備必定相關性的諸指標 ,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接肯定各因子狀態。


因子分析只能解釋部分變異,主成分分析能解釋全部變異 。

數據預處理的思路必定要完整,要給出數據預處理的處理理由。


舉例練習:活用Excel2016版本以上,基本上都有數據分析的功能。

刪除空值

51

相關文章
相關標籤/搜索