數據清洗的一般流程(特徵工程)

1.獲取輸出目標數據的describe()。這包括數據的count,mean,std,min,median。然後獲取輸出數據的skew,kurt   2.繪製主要影響因素的圖像,例如房子價格的主要影響因素是面積,即繪製面積與價格的圖像。通過觀察圖像,查看異常值,並對異常值進行處理。一般異常值即爲離羣點數據     3.將訓練集數據與測試集數據進行聯合起來進行特徵處理。   4.繪相關係數矩陣熱圖,
相關文章
相關標籤/搜索