校招準備-機器學習/深度學習/數據挖掘

任務說明

機器學習基本算法原理推到應用

 主要包括:算法的原理,損失函數,推導,優缺點,適用條件等基本知識,以及工程實現(單機,分佈式,算法優化)包括算法的本身實現,與spark分佈式實現,sklearn源碼,等 [DT,KNN,LR,GBDT,RF等,SVM]系統的學習與整理html

涵蓋 分類,迴歸,聚類,降維 四大主題:算法

分類

線性模型:LR,線性判別分析網絡

決策樹:ID3,C4.5, CART樹機器學習

KNN:分佈式

貝葉斯:樸素貝葉斯,貝葉斯網絡,函數

SVM:學習

集成類方法:Bagging與隨機森林;boosting,adaboost,gbdt,xgboost優化

迴歸

線性迴歸系列編碼

knn迴歸spa

SVR

CART樹迴歸

聚類: 各個算法的概念,使用,原理,實現(結合sklearn和spark) 都尚未深刻的瞭解*   

1.爲解決基本問題,什麼是聚類算法,輸出你熟悉的幾種聚類算法,比較其優缺點;

2.查看各類機器學習書籍的課後習題! 

(1/5)(時間:6.7上午瞭解各個算法,看了幾篇綜述;)

基於劃分的聚類 k-means和他的變體

k-means簡單快 速而 且 能 有 效 處 理 大 規模數據集 ,缺點對於噪聲和孤立點敏感 ; 依賴於初始化的值, 可能陷入局部最優,可能須要屢次初始化;須要給出K值

PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html  對噪聲不敏感,可是計算量大   https://blog.csdn.net/sinat_19596835/article/details/78303744

CLARAPAM 方法類似,主要是爲了減小pam的計算量 

 

AP(Affinity Propagation) 也屬於機率圖聚類 親密度傳播聚類,不須要給定k值;  各種結構比較緊密時,算法能給出比較好的結果,可是在比較鬆散的狀況下,算法傾向於參數較多的類來實現E(C)最大化,是的不太準確  

高斯混合

FCM 屬於模糊聚類,

層次聚類

AGNES 

BIRCH

CURE

ROCK

密度聚類,

DBSCAN 

譜聚類

降維

PCA

ICA

數據挖掘

預處理與可視化

特徵選擇

評價標準

關聯分析

異常檢測

深度學習

自編碼機

卷積

RNN/LSTM

數理基礎

機率統計相關基礎

最優化相關基礎:經常使用的如LR的各類優化方法,DL的各類最優化方法 

相關文章
相關標籤/搜索