數據挖掘:理論與算法 筆記(1)

基礎概念: (1)數據清洗是耗神的,原因有信息不完整,噪點(比如工資爲-1元),前後不一等問題。 (2)數據缺失的原因有:設備故障,採集不當,N/A(Not Apploicable:比如對男性檢查宮頸,對學生調查工資) (3)數據缺失的類型:完全隨機缺失,有區分的缺失(女性不願意說出體重),不完全隨機缺失 處理數據缺失的方法: (1)Ignore (2)Fill possible number(再
相關文章
相關標籤/搜索