python數據質量檢查

數據質量檢查是在完成寬表數據開發後進行的,主要包括四個方面:重複值檢查、缺失值檢查、數據傾斜問題、異常值檢查。 1. 重複值檢查 1.1 什麼是重複值 重複值的檢查首先要明確一點,即重複值的定義。對於一份二維表形式的數據集來說,什麼是重複值?主要有兩個層次: ① 關鍵字段出現重複記錄,比如主索引字段出現重複; ② 所有字段出現重複記錄。 第一個層次是否是重複,必須從這份數據的業務含義進行確定。比如
相關文章
相關標籤/搜索