機器學習算法的分類、機器學習的開發流程

機器學習算法分類

監督學習(預測,有目標)

  1. 分類

    • K-近鄰算法
    • 貝葉斯算法
    • 決策樹與隨機森林
    • 邏輯迴歸
  2. 迴歸

    • 線性迴歸
    • 嶺迴歸
  3. 分類的概念

    • 分類是監督學習的一個核心問題,在監督學習中,當輸入變量取有限個離散值時,預測問題變成分類問題. 基礎的即是二分類問題即判斷是非,從兩個類別中選擇一個做爲預測結果.
  4. 迴歸的概念

    • 迴歸是監督學習的另外一個重要問題.迴歸用於預測輸入變量和輸出變量之間的關係,輸出是連續型的值.

無監督學習(無目標) 

  • 聚類

    • k-means

監督學習 : 特徵值 + 目標值算法

非監督學習 : 特徵值機器學習

數據類型:

  1. 離散型數據 :
    • 由記錄不一樣類別個體的數目所獲得的數據,又稱爲計數數據,全部這些數據所有都是整數,並且不能再細分,也不能進一步提升它們的精確度.
  2. 連續型數據:
    • 變量能夠在某個範圍內取任一數,即變量的取值能夠是連續的,如:長度,時間,質量值等.這類數 一般是非整數,含有小數部分
    • 注意: 只要記住一點,離散型是區間內不可分,連續型是區間內可分.
    • 數據類型是機器學習模型不一樣問題不一樣處理的依據.
  3. 分類 : 離散型
  4. 迴歸 : 連續型

sklearn 中的經常使用模型 :學習

  1. 用於分類的模型(估計器)
      • sklearn.neighbors  k-近鄰算法啊
      • sklearn.naive_bayes  貝葉斯
      • sklearn.linear_model.LogisticRegression    邏輯迴歸
      • sklearn.tree      決策樹與隨機森林  
  2. 用於迴歸的模型
      • sklearn.linear_model_LinearRegression    線性迴歸 
      • sklearn.linear_model.Ridge    鄰迴歸  

  *** 模型就是實現了具體算法的API, 這些API須要理解其參數.。*** spa


機器學習的開發流程

1. 數據收集

  • 公司原本就有數據
  • 合做公司提供數據
  • 購買數據
  • 爬蟲爬數據,數據預處理

2. 根據須要解決的問題, 對數據進行預處理

  • 數據清洗
  • 缺失值
  • 合併
  • 不只限於 ,具體問題具體對待

3. 特徵工程

  • 特徵抽取
  • 歸一化
  • 標準化
  • 降維

4. 經常使用算法選擇

  • 分類
  • 迴歸

5. 模型驗證

  • 模型的評估,斷定效果

6. 模型報錯保存

  • 保存上線
相關文章
相關標籤/搜索