機器學習之數據預處理

時間 2020-12-27

原文原文鏈接

一. 數據預處理 1）導入主要的庫，pandas數據處理庫，Numpy數學運算庫。 2）導入數據集，數據集的格式有很多，json，csv，txt，等以csv爲例，通過pandas讀取。 3）數據集中會出現很多問題，例如缺失值，異常值，會影響模型的準確率，所以需要對這些值進行處理。這裏會用到sklearn庫，sklearn.preprocessing中的Imputer中完成。 4）處理標籤值，如果

>>阅读原文<<