筆記:機器學習算法概論python
1.建模與問題解決流程
(1)數據處理
(2)特徵工程
(3)模型選擇
(4)尋找最佳參數:交叉驗證
(5)模型分析與模型融合算法
2.機器學習工業應用領域
(1)經濟相關:股市+房價
(2)能源相關:產能預測+分配與合理利用
(3)NLP相關:檢索+分類+類似度
(4)互聯網用戶行爲:CTR預測[點擊經過率]
(5)推薦系統相關:電商推薦機器學習
3.機器學習經常使用算法
(1)無監督式學習:在未加標籤的數據中,試圖找到隱藏的結構
-聚類和降維:SVD + PCA + K-means
(2)監督式學習:從標籤化數據集中推斷出函數關係
-迴歸(線性+多項式)+ 決策樹 + 隨機森林
-分類:KNN + trees + 邏輯迴歸 + 樸素貝葉斯 + SVM函數
4.機器學習經常使用工具(python庫)
(1)scikit-learn:包含大量經常使用的機器學習算法(速度不是最快但算法最全+封裝性最好)
(2)gensim:天然語言處理
(3)matplotlib:繪圖(可視化)
(4)pandas:數據預處理(數據清洗)
(5)XGBoost:分類和迴歸工具
5.解決問題流程
(1)數據預處理
-數據清洗:不可信的樣本丟掉+缺省值極多的字段考慮不用
-數據採樣:保證樣本均衡
(2)特徵工程
-過濾性:sklearn.feature_selection.SelectKBest
-包裹性:sklearn.feature_selection.RFE
-嵌入式:sklearn.feature_selection.SelectFromModel+Linear model,L1正則化
(3)模型參數選擇
-交叉驗證:sklearn.grid_search.GridSearchCV學習
6.模型融合
(1)Bagging
(2)Stacking
(3)Boosting(Adaboost)ci