文章大綱
咱們目前進入了一個大數據的時代。以我目前常常處理的醫療保健數據爲例。前端
隨着時間的推移醫療保健數據的生成速度愈來愈快,預計到2020年將達到35 ZB(1ZB大約是10的9次方TB)。不管是出於患者護理、研究仍是法律緣由,可以經濟高效、安全地管理這些數據對醫療保健提供者來講都愈來愈重要。python
醫療保健提供商必須可以攝取、存儲和保護大量數據,包括臨牀、基因組、設備、財務、供應鏈和保險理賠等。web
本文嘗試從數據 挖掘、分析的通常步驟入手,基於理論化的描述結合具體例子詳細介紹挖掘分析建模以前數據處理的目的及方法論。正則表達式
數據分析的通常流程:算法
- 肯定目標
- 獲取數據源
- 數據探索
- 數據預處理
- 挖掘分析建模
- 模型效果評價
借用一張同事繪製的圖片
數據庫
統一數據接入
數據接入,尤爲是針對目前多元異構數據的(批處理數據、實時數據流式數據)接入,咱們稱之爲統一數據接入。安全
文章連接:統一數據接入實踐分享svg
數據清洗的目的
數據清洗, 是整個數據分析過程當中不可缺乏的一個環節,其結果質量直接關係到模型效果和最終結論。在實際操做中,數據清洗一般會佔據分析過程的50%—80%的時間。工具
數據清洗的目的從兩個角度來說:oop
1、是爲了解決數據質量問題
2、是讓數據更適合作挖掘、展現、分析
解決數據質量問題
解決數據質量問題,其實就是爲了確保如下幾點:
針對每一點咱們分別來看
- 數據的完整性
例如人的屬性中缺乏性別、年齡等
- 數據的惟一性
例如不一樣來源的數據出現重複的狀況,好比本次數據中咱們基本信息中的序號,有部分重複的數據。這個多是因爲數據錄入兩次形成的。
- 數據的權威性
例如同一個指標出現多個來源的數據,且數值不同
- 數據的合法性
例如獲取的數據與常識不符,年齡大於150歲
- 數據的一致性
例如不一樣來源的不一樣指標,實際內涵是同樣的,或是同一指標內涵不一致
讓數據更適合作挖掘、展現、分析
從這個角度講,數據清洗的工做更偏向工程,不是咱們此次關注的重點.(有時間、有興趣的話會後詳細討論,就不佔用你們時間了。)
讓數據更適合作挖掘、展現、分析,有如下一些手段對數據進行清洗。
- 高維度----不適合挖掘
思路:降維,方法包括但不限於:
主成分分析PCA
隨機森林
- 維度過低----不適合挖掘
思路:抽象,方法包括但不限於:
各類彙總,平均、加總、最大、最小等
各類離散化,聚類、自定義分組等
- 無關信息----減小存儲
解決方法:剔除字段
- 字段冗餘
一個字段是其餘字段計算出來的,會形成相關係數爲1或者主成因分析異常
解決方法:剔除字段
- 多指標數值、單位不一樣
如GDP與城鎮居民人均收入數值相差過大
解決方法:歸一化,方法包括但不限於:
最小-最大
零-均值
小數定標
數據清洗的步驟
第0步:數據導入及元數據處理
數據導入及元數據處理階段主要主要關注兩件事情:
1.瞭解數據量
經過了解數據量(批處理,仍是流式數據),將數據導入處理工具或者平臺。一般來講,數據量不大的狀況建議使用數據庫。
若是數據量大(千萬級以上),可使用hadoop文本文件存儲+Python操做的方式。
這個步驟對於批處理,文件交換的方式一般比較會引發問題是文件編碼,推薦統一使用UTF-8編碼。
2.瞭解元數據
這裏包含兩個部分:
一是看元數據,包括字段解釋、數據來源、代碼表等等一切描述數據的信息;若是數據是多維度的咱們要弄清楚數據之間的關聯關係。
二是抽取一部分數據,使用人工查看方式,對數據自己有一個直觀的瞭解,而且初步發現一些問題,爲以後的處理作準備。
第一步:缺失值清洗
缺失值是最多見的數據問題,處理缺失值也有不少方法,我建議按照如下四個步驟進行:
一、肯定缺失值比例和範圍
對每一個字段都計算其缺失值比例,而後按照缺失比例和字段重要性,分別制定策略,可用下圖表示:
二、去除不須要的字段
這一步很簡單,直接刪掉便可……但強烈建議清洗每作一步都備份一下,或者在小規模數據上試驗成功再處理全量數據,否則刪錯了會追悔莫及(多說一句,寫SQL的時候delete必定要配where!)。
三、填充缺失內容
某些缺失值能夠進行填充,方法有如下三種:
以業務知識或經驗推測填充缺失值
以同一指標的計算結果(均值、中位數、衆數等)填充缺失值
以不一樣指標的計算結果填充缺失值
前兩種方法比較好理解。關於第三種方法,舉個最簡單的例子:年齡字段缺失,可是有部分脫敏能夠計算年齡的身份證號
四、從新獲取數據
若是某些指標很是重要又缺失率高,那就須要和取數人員或業務人員瞭解,是否有其餘渠道能夠取到相關數據。
以上,簡單的梳理了缺失值清洗的步驟,但其中有一些內容在實際工程應用中會更加複雜。
好比填充缺失值。不少講統計方法或統計工具的書籍會提到相關方法。
第二步:格式內容清洗
若是數據是由系統日誌而來,那麼一般在格式和內容方面,會與元數據的描述一致。
而若是數據是由人工收集或用戶填寫而來,則有很大可能性在格式和內容上存在一些問題,簡單來講,格式內容問題有如下幾類:
一、修正格式的統一
時間、日期、數值、全半角等顯示格式不一致
這種問題一般與輸入端有關,在整合多來源數據時也有可能遇到,將其處理成一致的某種格式便可。
二、修正內容類型的統一
內容中有不應存在的字符
某些內容可能只包括一部分字符,好比身份證號是數字+字母,中國人姓名是漢字(趙C這種狀況仍是少數)。最典型的就是頭、尾、中間的空格,也可能出現姓名中存在數字符號、身份證號中出現漢字等問題。
這種狀況下,須要以半自動校驗(正則表達式)半人工方式來找出可能存在的問題,並去除不須要的字符。
三、內容與該字段應有內容不符
姓名寫了性別,身份證號寫了手機號等等,均屬這種問題。 但該問題特殊性在於:若是數據很重要那麼不能簡單的以刪除來處理,由於成因有多是人工填寫錯誤,也有多是前端沒有校驗,還有多是導入數據時部分或所有存在列沒有對齊的問題,所以要詳細識別問題類型。
格式內容問題是比較細節的問題,但不少分析失誤都是栽在這個坑上,好比跨表關聯或VLOOKUP失敗(多個空格致使工具認爲「陳丹奕」和「陳 丹奕」不是一我的)、統計值不全(數字裏摻個字母固然求和時結果有問題)、模型輸出失敗或效果很差(數據對錯列了,把日期和年齡混了,so……)。
所以,請各位務必注意這部分清洗工做,尤爲是在處理的數據是人工收集而來,或者你肯定產品前端校驗設計不太好的時候……
第三步:邏輯錯誤清洗
這部分的工做是去掉一些使用簡單邏輯推理就能夠直接發現問題的數據,防止分析結果走偏。主要包含如下幾個步驟:
一、去重
有的分析師喜歡把去重放在第一步,但我強烈建議把去重放在格式內容清洗以後,緣由已經說過了(多個空格致使工具認爲「陳丹奕」和「陳 丹奕」不是一我的,去重失敗)。並且,並非全部的重複都能這麼簡單的去掉……
固然,若是數據不是人工錄入的,那麼簡單去重便可。
二、去除異常值 outliar
一句話就能說清楚:
有人填表時候手抖,年齡200歲,這種的就要麼刪掉,要麼按缺失值處理。這種值如何發現?
通常有兩種手段:
- 基於統計與數據分佈
最大值,最小值,分箱,分類統計,Pandas Value count
峯值偏度,是否是正態分佈。
- 箱形圖分析
三、修正矛盾內容
有些字段是能夠互相驗證的,舉例:身份證號是1101031980XXXXXXXX,而後年齡填18歲。在這種時候,須要根據字段的數據來源,來斷定哪一個字段提供的信息更爲可靠,去除或重構不可靠的字段。
邏輯錯誤除了以上列舉的狀況,還有不少未列舉的狀況,在實際操做中要酌情處理。另外,這一步驟在以後的數據分析建模過程當中有可能重複,由於即便問題很簡單,也並不是全部問題都可以一次找出,咱們能作的是使用工具和方法,儘可能減小問題出現的可能性,使分析過程更爲高效。
第四步:非需求數據清洗
這一步提及來很是簡單:把不要的字段刪了。
但實際操做起來,有不少問題,例如:
把看上去不須要但實際上對業務很重要的字段刪了;
某個字段以爲有用,但又沒想好怎麼用,不知道是否該刪;
一時看走眼,刪錯字段了。
前兩種狀況我給的建議是:若是數據量沒有大到不刪字段就沒辦法處理的程度,那麼能不刪的字段儘可能不刪。第三種狀況,請勤備份數據……
第五步:關聯性驗證
若是你的數據有多個來源,那麼有必要進行關聯性驗證。
例如,你有汽車的線下購買信息,也有電話客服問卷信息,二者經過姓名和手機號關聯,那麼要看一下,同一我的線下登記的車輛信息和線上問卷問出來的車輛信息是否是同一輛,若是不是(別笑,業務流程設計很差是有可能出現這種問題的!),那麼須要調整或去除數據。
嚴格意義上來講,這已經脫離數據清洗的範疇了,並且關聯數據變更在數據庫模型中就應該涉及。但我仍是但願提醒你們,多個來源的數據整合是很是複雜的工做,必定要注意數據之間的關聯性,儘可能在分析過程當中不要出現數據之間互相矛盾,而你卻毫無察覺的狀況。
數據採集建議
一行代碼探索性數據分析
python Pandas Profiling 一行代碼EDA 探索性數據分析
數據預處理
近年來,隨着相關算法的日趨成熟,決定一個項目是否成功的關鍵因素逐漸從算法自己變成了「數據探索+數據預處理」這個部分。
有句話說的好:
數據和特徵工程決定了學習的上限
模型和調參等只不過是竭盡所能去逼近這個上限
數據預處理的主要步驟:數據清理、數據集成、數據規約和數據變換。
參考文獻
參考1:https://www.zhihu.com/question/22077960
參考3:https://zhuanlan.zhihu.com/p/20571505
參考4:https://zhuanlan.zhihu.com/p/54172870
https://blog.csdn.net/jiazericky/article/details/80322225
https://blog.csdn.net/walterudoing/article/details/51782704
相關資源
本文同步分享在 博客「shiter」(CSDN)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。