入門·開始使用機器學習

時間 2019-12-07

標籤入門開始使用機器學習简体版

原文原文鏈接

入門·開始使用機器學習

標籤（空格分隔）： 100DaysOfMLCode算法

步驟1：導入庫

NumPy和Pandas,這兩個是咱們每次都須要導入的庫。NumPy是一個包含數學計算函數的庫，Pandas用於導入和管理數據集。
步驟2：導入數據集
---
數據集一般是.csv格式。csv以文本格式存儲表格數據。文件的每一行是一條數據記錄。咱們使用Pandas的read_csv方法來讀取本地CSV文件，做爲一個數據幀。而後咱們從數據幀中製做自變量和因變量獨立的矩陣和向量。
步驟3：處理丟失的數據
---
咱們獲得的數據不多是完整的數據可能會因爲各類緣由丟失，爲了避免所以下降咱們機器學習模型的表現，須要進行處理。咱們能夠用整條數據的平均值或者中位數來代替丟失的數據。使用sklearn.preprosessing庫中的Imputer類來實現此任務。
步驟4：編碼分類數據
---
分類數據是包含標籤值而不是數字值的變量。取值的可能一般在固定的範圍。例如「Yes」和「No」這樣的值不能用於模型的數學計算，所以咱們須要將這些變量編碼成數字。爲了實現這個操做，咱們從sklearn.preprosessing庫中導入LabelEncoder類。
步驟5：將數據集拆分爲訓練集和測試集
---
數據集分爲兩部分，將用於訓練模型的一部分紅爲訓練數據集，用於驗證模型的數據集叫作測試數據集。比例常爲80/20.咱們導入sklearn.crossvalidation庫中的train_test_split()方法。
步驟6：特徵縮放
---
大多數機器學習算法在計算中使用兩個數據點之間的歐幾里德距離，這樣特徵在幅度、單位、和範圍姿態問題上變化很大。在距離計算中，高幅度的特徵比低幅度的特徵權重更大。能夠使用特徵標準化或Z值歸一化解決。導入sklearn.preprosessing庫的StadardScalar類。
機器學習