主要包括:算法的原理,損失函數,推導,優缺點,適用條件等基本知識,以及工程實現(單機,分佈式,算法優化)包括算法的本身實現,與spark分佈式實現,sklearn源碼,等 [DT,KNN,LR,GBDT,RF等,SVM]系統的學習與整理html
涵蓋 分類,迴歸,聚類,降維 四大主題:算法
線性模型:LR,線性判別分析網絡
決策樹:ID3,C4.5, CART樹機器學習
KNN:分佈式
貝葉斯:樸素貝葉斯,貝葉斯網絡,函數
SVM:學習
集成類方法:Bagging與隨機森林;boosting,adaboost,gbdt,xgboost優化
線性迴歸系列編碼
knn迴歸spa
SVR
CART樹迴歸
2.查看各類機器學習書籍的課後習題!
(1/5)(時間:6.7上午瞭解各個算法,看了幾篇綜述;)
k-means簡單、快 速而 且 能 有 效 處 理 大 規模數據集 ,缺點對於噪聲和孤立點敏感 ; 依賴於初始化的值, 可能陷入局部最優,可能須要屢次初始化;須要給出K值
PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html 對噪聲不敏感,可是計算量大 https://blog.csdn.net/sinat_19596835/article/details/78303744
CLARA和 PAM 方法類似,主要是爲了減小pam的計算量
AP(Affinity Propagation) 也屬於機率圖聚類 親密度傳播聚類,不須要給定k值; 各種結構比較緊密時,算法能給出比較好的結果,可是在比較鬆散的狀況下,算法傾向於參數較多的類來實現E(C)最大化,是的不太準確
高斯混合
FCM 屬於模糊聚類,
AGNES
BIRCH
CURE
ROCK
DBSCAN
譜聚類
PCA
ICA
預處理與可視化
特徵選擇
評價標準
關聯分析
異常檢測
自編碼機
卷積
RNN/LSTM
機率統計相關基礎
最優化相關基礎:經常使用的如LR的各類優化方法,DL的各類最優化方法