機器學習算法分類
監督學習(預測,有目標)
-
分類
- K-近鄰算法
- 貝葉斯算法
- 決策樹與隨機森林
- 邏輯迴歸
-
迴歸
-
分類的概念
- 分類是監督學習的一個核心問題,在監督學習中,當輸入變量取有限個離散值時,預測問題變成分類問題. 基礎的即是二分類問題即判斷是非,從兩個類別中選擇一個做爲預測結果.
-
迴歸的概念
- 迴歸是監督學習的另外一個重要問題.迴歸用於預測輸入變量和輸出變量之間的關係,輸出是連續型的值.
無監督學習(無目標)
監督學習 : 特徵值 + 目標值算法
非監督學習 : 特徵值機器學習
數據類型:
- 離散型數據 :
- 由記錄不一樣類別個體的數目所獲得的數據,又稱爲計數數據,全部這些數據所有都是整數,並且不能再細分,也不能進一步提升它們的精確度.
- 連續型數據:
- 變量能夠在某個範圍內取任一數,即變量的取值能夠是連續的,如:長度,時間,質量值等.這類數 一般是非整數,含有小數部分
- 注意: 只要記住一點,離散型是區間內不可分,連續型是區間內可分.
- 數據類型是機器學習模型不一樣問題不一樣處理的依據.
- 分類 : 離散型
- 迴歸 : 連續型
sklearn 中的經常使用模型 :學習
- 用於分類的模型(估計器)
-
- sklearn.neighbors k-近鄰算法啊
- sklearn.naive_bayes 貝葉斯
- sklearn.linear_model.LogisticRegression 邏輯迴歸
- sklearn.tree 決策樹與隨機森林
- 用於迴歸的模型
-
- sklearn.linear_model_LinearRegression 線性迴歸
- sklearn.linear_model.Ridge 鄰迴歸
*** 模型就是實現了具體算法的API, 這些API須要理解其參數.。*** spa
機器學習的開發流程
1. 數據收集
- 公司原本就有數據
- 合做公司提供數據
- 購買數據
- 爬蟲爬數據,數據預處理
2. 根據須要解決的問題, 對數據進行預處理
- 數據清洗
- 缺失值
- 合併
- 不只限於 ,具體問題具體對待
3. 特徵工程
4. 經常使用算法選擇
5. 模型驗證
6. 模型報錯保存