機器學習算法普遍,各類衍生算法太多太多,各顯其招。這裏根據本身工做學習的經驗只能大概總結以下(按通常數據處理流程區分)算法
數據預處理算法
基本處理網絡
- 歸一化 :
0~1之間
- 標準化:
均值爲0,方差爲1
- 異常點的去除:
通常與均值的差值大於2倍標準差的數據點
- 縮放:
也是一種歸一化,對於極大值或者極小值不對稱分佈的特徵施加轉換,如:對數log縮放
濾波dom
- 均值濾波
- 中位值濾波
- 一階滯後濾波
- 卡爾曼濾波:5個公式
特徵提取算法
- 正交信號矯正(OSC)
- 連續投影算法(SPA)
- 小波變換
- 經驗模態分解(EMD)
- 黃變換(HHT)
監督學習建模算法
基本上全部分類方法都可以用於迴歸機器學習
分類算法函數
- 感知機(Perceptron):
決策函數:sign(W*X+b);>0爲1類,<0爲-1類
- 邏輯迴歸(LogisticRegression):
- 隨機梯度降低(Stochastic Gradient Descent)
- K-近鄰(KNN)
- 支持向量機(SVM)
- 決策樹(DecisionTreeClassifier)
- 樸素貝葉斯(Naive Bayes)
- 集成學習(bagging、boosting):
bagging: 隨機森林(RandomForest); boosting: Adaboost、GBDT、XGBoost
- 人工神經網絡(ANN):BP網絡
- 線性判別分析(LDA):
有監督降維
迴歸算法學習
- 多元線性迴歸(MLR):
y = W*X+b; w,b由最小二乘法求得
- 偏最小二乘法(PLS):
yi = W*X+b;偏最小二乘迴歸≈多元線性迴歸分析+典型相關分析+主成分分析;基於因變量爲多個,自變量爲多個。先同時求兩者的主成分,使兩個主成分的相關性達到最大,而後求各個因變量與自變量的主成分之間的迴歸方程,再反推回原變量間的迴歸方程。
- 嶺迴歸(Ridge Regression)
- 逐步迴歸(Step Regression)
非監督學習建模算法
- k-均值(聚類)
- 高斯混合模型GMM(聚類)
- 主成分分析PCA(降維)
- 核主成分分析K-PCA
- 局部保持投影LPP(降維)
- 流形學習Manifold Learning
- 獨立成分分析ICA
模型評價指標
pass優化
參數優化算法
- 梯度降低(Gradient Descent)
- 牛頓法和擬牛頓法(Newton's method & Quasi-Newton Methods)
- 拉格朗日乘數法
- 粒子羣算法(PSO)
- 遺傳算法(GA)
天然語言處理三大基本算法:
深度學習建模算法