[Python數據挖掘]第4章、數據預處理

時間 2019-11-07

原文原文鏈接

數據預處理主要包括數據清洗、數據集成、數據變換和數據規約，處理過程如圖所示。

1、數據清洗

1.缺失值處理：刪除、插補、不處理

## 拉格朗日插值代碼（使用缺失值先後各5個未缺失的數據建模）函數

import pandas as pd #導入數據分析庫Pandas
from scipy.interpolate import lagrange #導入拉格朗日插值函數

inputfile = '../data/catering_sale.xls' #銷量數據路徑
outputfile = '../tmp/sales.xls' #輸出數據路徑

data = pd.read_excel(inputfile) #讀入數據
data[u'銷量'][(data[u'銷量'] < 400) | (data[u'銷量'] > 5000)] = None #過濾異常值，將其變爲空值

#自定義列向量插值函數
#s爲列向量，n爲被插值的位置，k爲取先後的數據個數，默認爲5
def ployinterp_column(s, n, k=5):
  y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取數
  y = y[y.notnull()] #剔除空值
  return lagrange(y.index, list(y))(n) #插值並返回插值結果

#逐個元素判斷是否須要插值
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull())[j]: #若是爲空即插值。
      data[i][j] = ployinterp_column(data[i], j)

data.to_excel(outputfile) #輸出結果，寫入文件