機器學習1

    機器學習主要由監督學習、無監督學習。算法

  監督學習主要用於解決分類和迴歸問題。機器學習

  無監督學習主要用於解決聚類問題。學習

  在機器學習過程當中主要有如下幾個步驟:測試

  • 數據預處理
  • 特徵工程
  • 數據建模
  • 結果評估

  首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。編碼

  在數據清洗過程當中主要對各類髒數據進行對應方式的處理,力保數據的完整性、合法性、一致性、惟一性以及權威性。spa

  在數據集的拆分中,主要將數據集拆分爲三部分,分別是訓練集、預測集、驗證數據集。其中驗證數據集主要是爲了在構建過程當中評估模型、提供無偏估計進而調整模型參數。而平常使用中經常使用的拆分方式爲:留出法和k-折交叉驗證法。兩種方法使用時均須要採用互斥拆分。在使用留出法時須要注意拆分保持先後數據的分佈一致,避免劃分過程當中引入額外誤差致使結果產生影響。k-折交叉驗證法將數據分爲大小類似的k個互斥子集,並儘可能保持每一個本身數據分佈的一致性,從而能夠獲取k組訓練-測試集。.net

  其次是特徵工程的講解。主要包括特徵編碼、特徵選擇、特徵降維以及規範化幾個方面。blog

  特徵編碼是對數據集中出現的字符串信息轉換爲數值形式。one-hot編碼採用N位寄存器的方法對N個狀態進行編碼。例如,性別屬性包括男、女兩個值,對其進行編碼,0表明男生、1表明女生。語義編碼是採用詞潛入的方式,詞嵌入信息能夠編碼語義信息,生成特徵語義表示。使用語義編碼能夠體現數據間的語音關係。例如http://www.sohu.com/a/129290647_473283TensorFlow自動句子語義編碼,谷歌開源機器學習模型 Skip-Thoughts繼承

  特徵選擇主要包括過濾法、包裹法和嵌入法。ip

  特徵降維。特徵降維能夠減小特徵屬性的個數,確保特徵屬性之間是相互獨立的。並且過多的特徵屬性會妨礙模型查找規律。好比一個模型中有多個屬性,分別是性別、年齡、名字、收入、婚否等多個屬性,可是咱們接下來要對數據中的男女進行分類的話,只須要考慮性別便可,其他屬性便可剔除,這就是達到了數據降維的目的。機器學習中經常使用的降維方法爲PCA、LDA

  規範化主要是將數據標準化、進行區間縮放或者進行歸一化。

  數據建模

  根據所需解決的問題,進行判斷,問題是屬於分類問題、迴歸問題仍是聚類問題。斷定好問題類型,選擇合適的算法來針對問題具體解決。

  對於分類問題,主要有如下幾個算法:決策樹、貝葉斯、支持向量機、邏輯迴歸和繼承學習等

  對於迴歸問題有:線性迴歸、嶺迴歸等

  對於聚類問題有:K-means、高斯混合聚類、層次聚類以及密度聚類等

  最後進行結果評估。

  評估指標有不少,若是是有監督學習的話,僅僅根據測試機的預測準確率是遠不夠的,能夠參考:https://blog.csdn.net/zk_ken/article/details/82013289

相關文章
相關標籤/搜索