數據挖掘算法
一、定義:網絡
數據挖掘(Data Mining)是有組織有目的地收集數據,經過分析數據使之成爲信息,從而在大量數據中尋找潛在規律以造成規則或知識的技術。機器學習
二、數據挖掘與機器學習的關係:工具
機器學習能夠用來做爲數據挖掘的一種工具或手段;性能
數據挖掘的手段不限於機器學習,譬如還有諸如統計學等衆多方法;學習
但機器學習的應用也遠不止數據挖掘,其應用領域很是普遍,譬如人工智能;人工智能
機器學習spa
一、定義:rest
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,從新組織已有的知識結構使之不斷改善自身的性能。開發
二、機器學習算法類別:
2.一、分類與聚類
Classification (分類):
給定一堆樣本數據,以及這些數據所屬的類別標籤,經過算法來對預測新數據的類別。有訓練數據,是監督學習。
Clustering(聚類):
事先並不知道一堆數據能夠被劃分到哪些類,經過算法來發現數據之間的類似性,從而將類似的數據劃入相應的類,簡單地說就是把類似的東西分到一組。沒有訓練數據,是無監督學習。
2.二、常見的分類與聚類算法
2.三、監督學習與無監督學習
機器學習按照訓練數據是否有「先驗知識」,通常劃分爲三類:
1) 監督學習(supervised learning):有先驗知識
2) 半監督學習(semi-supervised learning):
3) 無監督學習(unsupervised learning):沒有先驗知識
三、機器學習的應用步驟
1) 需求分析
2) 收集數據
3) 探索數據特性
4) 提取數據特徵並建模
5) 開發代碼(經常使用語言:R語言,Python語言)
6) 訓練模型
7) 應用系統集成(好比將訓練好的算法模型集成到推薦系統中)
四、機器學習必備的數學知識
4.一、機率
4.二、距離(類似度)
機器學習中衡量樣本之間的類似度
4.三、線性方程
機器學習中線性擬合或迴歸分類
4.四、向量與矩陣
大批量樣本運算