標籤(空格分隔): 100DaysOfMLCode算法
NumPy和Pandas,這兩個是咱們每次都須要導入的庫。NumPy是一個包含數學計算函數的庫,Pandas用於導入和管理數據集。
步驟2:導入數據集
---
數據集一般是.csv格式。csv以文本格式存儲表格數據。文件的每一行是一條數據記錄。咱們使用Pandas的read_csv方法來讀取本地CSV文件,做爲一個數據幀。而後咱們從數據幀中製做自變量和因變量獨立的矩陣和向量。
步驟3:處理丟失的數據
---
咱們獲得的數據不多是完整的數據可能會因爲各類緣由丟失,爲了避免所以下降咱們機器學習模型的表現,須要進行處理。咱們能夠用整條數據的平均值或者中位數來代替丟失的數據。使用sklearn.preprosessing庫中的Imputer類來實現此任務。
步驟4:編碼分類數據
---
分類數據是包含標籤值而不是數字值的變量。取值的可能一般在固定的範圍。例如「Yes」和「No」這樣的值不能用於模型的數學計算,所以咱們須要將這些變量編碼成數字。爲了實現這個操做,咱們從sklearn.preprosessing庫中導入LabelEncoder類。
步驟5:將數據集拆分爲訓練集和測試集
---
數據集分爲兩部分,將用於訓練模型的一部分紅爲訓練數據集,用於驗證模型的數據集叫作測試數據集。比例常爲80/20.咱們導入sklearn.crossvalidation庫中的train_test_split()方法。
步驟6:特徵縮放
---
大多數機器學習算法在計算中使用兩個數據點之間的歐幾里德距離,這樣特徵在幅度、單位、和範圍姿態問題上變化很大。在距離計算中,高幅度的特徵比低幅度的特徵權重更大。能夠使用特徵標準化或Z值歸一化解決。導入sklearn.preprosessing庫的StadardScalar類。
機器學習