數據清洗 算法
對於缺失值的處理,咱們分爲3類:刪除數據,數據插補,不處理.數據的插值是取先後相鄰幾個數據的平均值做爲插值,有拉格朗日插值法,牛頓插值法等.spa
數據規範化io
數據規範化對於基於距離的挖掘算法很重要,將數據映射到0-1之間,或者-1-1之間.主要的方法有:最小-最大規範化,零-均值規範化,小數定標規範化方法
連續屬性離散化數據
對於一些分類算法,如ID3算法和Apriori算法等,要求數據是分類形式.經常使用的方法有:等款法,等頻法,基於聚類分析的方法(K-means).
規範化
屬性構造
模型
爲了提取更有用的數據,提升挖掘的精度,須要再已有的數據集構造出新的屬性特徵,例如偷電漏電模型中構造出的線損率屬性特徵.