Day01 基礎篇(一)何爲數據分析?何爲數據挖掘?

1、數據分析的三個重要組成成分算法

  (1)數據採集網絡

      獲取數據源(Python爬蟲、八爪魚)機器學習

  (2)數據挖掘工具

      十大算法原理、數學基礎、基本流程學習

  (3)數據可視化優化

      工具的使用(微圖、DataV、DataGIF Maker)網站

      Python類庫的使用(Matplotlib、Seaborn)數據分析

 

2、學習數據分析最好的方法數學

  在工具中靈活運用、在項目中加深理解數據挖掘

 

3、兩條準則

  (1)不重複造輪子,要善於靈活運用類庫

  (2)工具決定效率,使用使用者最多的工具。

 

4、數據挖掘的基本流程

  (1)商業理解:對項目從商業角度進行需求分析,再對挖掘的目標進行定義

  (2)數據理解:收集部分數據(自主進行數據描述、質量驗證等操做),瞭解數據

  (3)數據準備:清洗數據、集成數據

  (4)模型創建:運用數據挖掘模型優化分類結果

  (5)模型評估:評價模型、查看其是否實現商業目標

  (6)上線發佈:用用戶能夠使用的方式呈現出項目

 

5、數據挖掘的十大算法

  一、分類算法:C4.五、樸素貝葉斯、SVM、KNN、Adaboost、CART

    (1)C4.5

        屬於決策樹算法,對決策樹構造過程進行減枝,能夠處理連續屬性,也能夠對不完整的數據進行處理。

    (2)樸素貝葉斯

        要給未知物體分類,求解未知物體出現條件下不一樣類別的機率,機率最大的分類即爲未知物體分類。

    (3)SVM

        支持向量機。用於創建超平面分類模型。

    (4)KNN

        K最近鄰算法。每一個樣本均可以用最接近的K個鄰居表明,若K個鄰居屬於相同分類A,則樣本也屬於分類A。

    (5)Adaboost

        創建聯合的分類模型,構建分類器的提高算法,將多個弱分類器組成一個強分類器。

    (6)CART

        表明分類和迴歸樹,屬於決策樹算法。

  

  二、聚類算法:K-Means、EM

    (1)K-Means

        肯定類別的中心點,只要計算新點與中心點之間的距離就能夠判斷新點的類別。

    (2)EM

        最大指望算法,用於求參數的最大似然估計,賦予A初值,獲得B估值,再由B估值從新估計A,一直持續直到收斂。

 

  三、關聯分析:Apriori

    (1)Apriori

        挖掘關聯規則的算法,從頻繁項集中挖掘出物品之間的關係。

 

  四、鏈接分析:PageRank

    (1)PageRank

        經過頁面的引用次數劃分網站的權重。

 

6、數據挖掘中的數學原理

  一、機率論與數理統計

    條件機率、獨立性、隨機變量、多維隨機變量

  二、線性代數

    向量、矩陣特徵值、特徵向量

    基於矩陣的各類運算的解決方法:PCA、SVD、MF、NMF

  三、圖論

    社交網絡中,人與人的關係,能夠用圖論上的兩個節點進行鏈接,節點的度能夠理解爲一我的的朋友數,圖論對於網絡結構的分析很是有效,在關係挖掘和圖像分割中具備重要做用。

  四、最優化方法

    至關於機器學習中的自我學習過程,最優化方法就是用更短的時間獲得收斂,取得更好的效果。

相關文章
相關標籤/搜索