大數據預處理之數據清洗

現實世界的數據常常是不完全的、有噪聲的、不一致的。數據清洗過程包括遺漏數據處理,噪聲數據處理,以及不一致數據處理。本節介紹數據清洗的主要處理方法。 遺漏數據處理 假設在分析一個商場銷售數據時,發現有多個記錄中的屬性值爲空,如顧客的收入屬性,則對於爲空的屬性值,可以採用以下方法進行遺漏數據處理。 1)忽略該條記錄 若一條記錄中有屬性值被遺漏了,則將此條記錄排除,尤其是沒有類別屬性值而又要進行分類數據
相關文章
相關標籤/搜索