1、數據分析的三個重要組成成分算法
(1)數據採集網絡
獲取數據源(Python爬蟲、八爪魚)機器學習
(2)數據挖掘工具
十大算法原理、數學基礎、基本流程學習
(3)數據可視化優化
工具的使用(微圖、DataV、DataGIF Maker)網站
Python類庫的使用(Matplotlib、Seaborn)數據分析
2、學習數據分析最好的方法數學
在工具中靈活運用、在項目中加深理解數據挖掘
3、兩條準則
(1)不重複造輪子,要善於靈活運用類庫
(2)工具決定效率,使用使用者最多的工具。
4、數據挖掘的基本流程
(1)商業理解:對項目從商業角度進行需求分析,再對挖掘的目標進行定義
(2)數據理解:收集部分數據(自主進行數據描述、質量驗證等操做),瞭解數據
(3)數據準備:清洗數據、集成數據
(4)模型創建:運用數據挖掘模型優化分類結果
(5)模型評估:評價模型、查看其是否實現商業目標
(6)上線發佈:用用戶能夠使用的方式呈現出項目
5、數據挖掘的十大算法
一、分類算法:C4.五、樸素貝葉斯、SVM、KNN、Adaboost、CART
(1)C4.5
屬於決策樹算法,對決策樹構造過程進行減枝,能夠處理連續屬性,也能夠對不完整的數據進行處理。
(2)樸素貝葉斯
要給未知物體分類,求解未知物體出現條件下不一樣類別的機率,機率最大的分類即爲未知物體分類。
(3)SVM
支持向量機。用於創建超平面分類模型。
(4)KNN
K最近鄰算法。每一個樣本均可以用最接近的K個鄰居表明,若K個鄰居屬於相同分類A,則樣本也屬於分類A。
(5)Adaboost
創建聯合的分類模型,構建分類器的提高算法,將多個弱分類器組成一個強分類器。
(6)CART
表明分類和迴歸樹,屬於決策樹算法。
二、聚類算法:K-Means、EM
(1)K-Means
肯定類別的中心點,只要計算新點與中心點之間的距離就能夠判斷新點的類別。
(2)EM
最大指望算法,用於求參數的最大似然估計,賦予A初值,獲得B估值,再由B估值從新估計A,一直持續直到收斂。
三、關聯分析:Apriori
(1)Apriori
挖掘關聯規則的算法,從頻繁項集中挖掘出物品之間的關係。
四、鏈接分析:PageRank
(1)PageRank
經過頁面的引用次數劃分網站的權重。
6、數據挖掘中的數學原理
一、機率論與數理統計
條件機率、獨立性、隨機變量、多維隨機變量
二、線性代數
向量、矩陣特徵值、特徵向量
基於矩陣的各類運算的解決方法:PCA、SVD、MF、NMF
三、圖論
社交網絡中,人與人的關係,能夠用圖論上的兩個節點進行鏈接,節點的度能夠理解爲一我的的朋友數,圖論對於網絡結構的分析很是有效,在關係挖掘和圖像分割中具備重要做用。
四、最優化方法
至關於機器學習中的自我學習過程,最優化方法就是用更短的時間獲得收斂,取得更好的效果。