一般,咱們從真實世界中提取的數據每每具備多種形式,散亂無章。那麼,咱們如何可以從這些數據中獲取有效洞察?針對這些缺失數據、非結構化數據,以及缺少常規結構的數據,咱們須要採用某些方法執行清理,從而確保和改進數據質量。html
數據清理在數據庫中有着悠久的歷史,是提取、轉換、加載 (ETL) 過程當中很是關鍵一步。數據庫
1.提取:ETL 一般用在數據倉庫中,這裏的數據提取自一個或多個來源htm
2.轉換:將數據轉換爲適當的格式和結構,包括執行數據清理ci
3.加載:將數據加載到最終目標位置,好比一個數據庫或文件開發
數據清理始於數據解析,也即從數據文件獲取每一個觀察值並提取每一個獨立元素。若是記錄類似(元素數量相同、類型類似等),則能夠輕鬆地肯定解析方法。get
今天咱們就來一塊兒探索處理實際數據的一些重要問題,以及能夠應用的方法。並演示如何開發一個可以執行數據驗證和概要分析的簡單實用程序。程序
點擊「閱讀原文」查看完整文章,處理數據自有一手,精確洞察再也不煩憂!方法