數據挖掘與機器學習介紹

數據挖掘算法

一、定義:網絡

數據挖掘(Data Mining)是有組織有目的地收集數據,經過分析數據使之成爲信息,從而在大量數據中尋找潛在規律以造成規則或知識的技術。機器學習

 

二、數據挖掘與機器學習的關係:工具

機器學習能夠用來做爲數據挖掘的一種工具或手段;性能

數據挖掘的手段不限於機器學習,譬如還有諸如統計學等衆多方法;學習

但機器學習的應用也遠不止數據挖掘,其應用領域很是普遍,譬如人工智能;人工智能

 

機器學習spa

一、定義:rest

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,從新組織已有的知識結構使之不斷改善自身的性能。開發

 

二、機器學習算法類別:

2.一、分類與聚類

Classification (分類)

給定一堆樣本數據,以及這些數據所屬的類別標籤,經過算法來對預測新數據的類別。有訓練數據,是監督學習。

 

Clustering(聚類)

事先並不知道一堆數據能夠被劃分到哪些類,經過算法來發現數據之間的類似性,從而將類似的數據劃入相應的類,簡單地說就是把類似的東西分到一組。沒有訓練數據,是無監督學習。

 

2.二、常見的分類與聚類算法

  • 經常使用的分類算法:決策樹分類法,樸素貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM) 的分類器,神經網絡法,k-最近鄰法(k-nearest neighborkNN),模糊分類法等等。
  • 常見聚類算法: K均值(K-means clustering)聚類算法、K-MEDOIDS算法、CLARANS算法;BIRCH算法、CURE算法、CHAMELEON算法等;基於密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基於網格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

 

2.三、監督學習與無監督學習

機器學習按照訓練數據是否有「先驗知識」,通常劃分爲三類:

1) 監督學習(supervised learning):有先驗知識

2) 半監督學習(semi-supervised learning):

3) 無監督學習(unsupervised learning):沒有先驗知識

 

三、機器學習的應用步驟

1) 需求分析

2) 收集數據

3) 探索數據特性

4) 提取數據特徵並建模

5) 開發代碼(經常使用語言:R語言,Python語言)

6) 訓練模型

7) 應用系統集成(好比將訓練好的算法模型集成到推薦系統中)

 

四、機器學習必備的數學知識

4.一、機率

4.二、距離(類似度)

機器學習中衡量樣本之間的類似度

4.三、線性方程

機器學習中線性擬合或迴歸分類

4.四、向量與矩陣

大批量樣本運算

相關文章
相關標籤/搜索