數據處理的基本流程

                      數據清洗  算法

  對於缺失值的處理,咱們分爲3類:刪除數據,數據插補,不處理.數據的插值是取先後相鄰幾個數據的平均值做爲插值,有拉格朗日插值法,牛頓插值法等.spa

 

               數據規範化io

  數據規範化對於基於距離的挖掘算法很重要,將數據映射到0-1之間,或者-1-1之間.主要的方法有:最小-最大規範化,零-均值規範化,小數定標規範化方法

 

            連續屬性離散化數據

  對於一些分類算法,如ID3算法和Apriori算法等,要求數據是分類形式.經常使用的方法有:等款法,等頻法,基於聚類分析的方法(K-means).
規範化

 

             屬性構造
模型

  爲了提取更有用的數據,提升挖掘的精度,須要再已有的數據集構造出新的屬性特徵,例如偷電漏電模型中構造出的線損率屬性特徵.

相關文章
相關標籤/搜索