實戰:數據質量檢查

數據質量檢查是在完成寬表數據開發後進行的,主要包括四個方面:重複值檢查、缺失值檢查、數據傾斜問題、異常值檢查。python 1. 重複值檢查 1.1 什麼是重複值 重複值的檢查首先要明確一點,即重複值的定義。對於一份二維表形式的數據集來講,什麼是重複值?主要有兩個層次: ① 關鍵字段出現重複記錄,好比主索引字段出現重複; ② 全部字段出現重複記錄。 第一個層次是不是重複,必須從這份數據的業務含義進
相關文章
相關標籤/搜索