Day01 基礎篇（一）何爲數據分析？何爲數據挖掘？

時間 2021-01-16

標籤算法網絡機器學習工具學習優化網站數據分析數學數據挖掘欄目系統網絡简体版

原文原文鏈接

1、數據分析的三個重要組成成分算法

　　（1）數據採集網絡

　　　　　　獲取數據源（Python爬蟲、八爪魚）機器學習

　　（2）數據挖掘工具

　　　　　　十大算法原理、數學基礎、基本流程學習

　　（3）數據可視化優化

　　　　　　工具的使用（微圖、DataV、DataGIF Maker）網站

　　　　　　Python類庫的使用（Matplotlib、Seaborn）數據分析

2、學習數據分析最好的方法數學

　　在工具中靈活運用、在項目中加深理解數據挖掘

3、兩條準則

　　（1）不重複造輪子，要善於靈活運用類庫

　　（2）工具決定效率，使用使用者最多的工具。

4、數據挖掘的基本流程

　　（1）商業理解：對項目從商業角度進行需求分析，再對挖掘的目標進行定義

　　（2）數據理解：收集部分數據（自主進行數據描述、質量驗證等操做），瞭解數據

　　（3）數據準備：清洗數據、集成數據

　　（4）模型創建：運用數據挖掘模型優化分類結果

　　（5）模型評估：評價模型、查看其是否實現商業目標

　　（6）上線發佈：用用戶能夠使用的方式呈現出項目

5、數據挖掘的十大算法

　　一、分類算法：C4.五、樸素貝葉斯、SVM、KNN、Adaboost、CART

　　　　（1）C4.5

　　　　　　　　屬於決策樹算法，對決策樹構造過程進行減枝，能夠處理連續屬性，也能夠對不完整的數據進行處理。

　　　　（2）樸素貝葉斯

　　　　　　　　要給未知物體分類，求解未知物體出現條件下不一樣類別的機率，機率最大的分類即爲未知物體分類。

　　　　（3）SVM

　　　　　　　　支持向量機。用於創建超平面分類模型。

　　　　（4）KNN

　　　　　　　　K最近鄰算法。每一個樣本均可以用最接近的K個鄰居表明，若K個鄰居屬於相同分類A，則樣本也屬於分類A。

　　　　（5）Adaboost

　　　　　　　　創建聯合的分類模型，構建分類器的提高算法，將多個弱分類器組成一個強分類器。

　　　　（6）CART

　　　　　　　　表明分類和迴歸樹，屬於決策樹算法。

　　二、聚類算法：K-Means、EM

　　　　（1）K-Means

　　　　　　　　肯定類別的中心點，只要計算新點與中心點之間的距離就能夠判斷新點的類別。

　　　　（2）EM

　　　　　　　　最大指望算法，用於求參數的最大似然估計，賦予A初值，獲得B估值，再由B估值從新估計A，一直持續直到收斂。

　　三、關聯分析：Apriori

　　　　（1）Apriori

　　　　　　　　挖掘關聯規則的算法，從頻繁項集中挖掘出物品之間的關係。

　　四、鏈接分析：PageRank

　　　　（1）PageRank

　　　　　　　　經過頁面的引用次數劃分網站的權重。

6、數據挖掘中的數學原理

　　一、機率論與數理統計

　　　　條件機率、獨立性、隨機變量、多維隨機變量

　　二、線性代數

　　　　向量、矩陣特徵值、特徵向量

　　　　基於矩陣的各類運算的解決方法：PCA、SVD、MF、NMF

　　三、圖論

　　　　社交網絡中，人與人的關係，能夠用圖論上的兩個節點進行鏈接，節點的度能夠理解爲一我的的朋友數，圖論對於網絡結構的分析很是有效，在關係挖掘和圖像分割中具備重要做用。

　　四、最優化方法

　　　　至關於機器學習中的自我學習過程，最優化方法就是用更短的時間獲得收斂，取得更好的效果。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。