數據挖掘學習筆記

時間 2021-01-17

標籤面試算法數據庫網絡數據結構機器學習工具學習人工智能 spa 欄目快樂工作简体版

原文原文鏈接

數據挖掘經常使用分析方法：

最近團隊須要招數據挖掘工程師，但公司暫時沒有這樣的人才。領導讓我臨時充當面試官，爲了扮演好這個角色，我花了點時間瞭解了一下數據挖掘的知識，並整理了這份資料。
數據挖掘的分析方法能夠劃分爲關聯分析、序列模式分析、分類分析和聚類分析四種。面試

關聯分析：

關聯分析是一種簡單、實用的分析技術，就是發現存在於大量數據集中的關聯性或相關性，從而描述了一個事物中某些屬性同時出現的規律和模式。算法

關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯繫。數據庫

關聯分析的一個典型例子是購物籃分析。該過程經過發現顧客放入其購物籃中的不一樣商品之間的聯繫，分析顧客的購買習慣。經過了解哪些商品頻繁地被顧客同時購買，這種關聯的發現能夠幫助零售商制定營銷策略。其餘的應用還包括價目表設計、商品促銷、商品的排放和基於購買模式的顧客劃分。網絡

可從數據庫中關聯分析出形如「因爲某些事件的發生而引發另一些事件的發生」之類的規則。如「67%的顧客在購買啤酒的同時也會購買尿布」，所以經過合理的啤酒和尿布的貨架擺放或捆綁銷售可提升超市的服務質量和效益。又如「‘C語言’課程優秀的同窗，在學習‘數據結構’時爲優秀的可能性達88%」，那麼就能夠經過強化「C語言」的學習來提升教學效果。數據結構

關聯分析->相關性分析->迴歸分析機器學習

關聯分析經常使用算法有：

簡單介紹Apriori算法工具

Apriori算法經常使用的用於挖掘出數據關聯規則的算法，它用來找出數據值中頻繁出現的數據集合。學習

經過找出的數據集合，能夠對人類商業決策進行指導。典型應用例子：超市購物的啤酒與尿布銷售關係。人工智能

Apriori算法基本思想是對各類數值進行組合，計算其共同出現機率。但其中增長了迭代，截枝思想，大大減小組合計算次數，在海量數據的狀況下依然能夠保證足夠高的計算效率。spa

序列模式：

所謂序列模式，個人定義是：在一組有序的數據列組成的數據集中，常常出現的那些序列組合構成的模式。跟咱們所熟知的關聯規則挖掘不同，序列模式挖掘的對象以及結果都是有序的，即數據集中的每一個序列的條目在時間或空間上是有序排列的，輸出的結果也是有序的。

舉個簡單的例子來講明，關聯規則一個經典的應用是計算超市購物中被共同購買的商品，它把每一個顧客的一次交易視做一個transaction，計算在不一樣transaction中不一樣item組合的規律性。而若是咱們考慮一個用戶屢次在超市購物的狀況，那麼這些不一樣時間點的交易記錄就構成了一個購買序列，N個用戶的購買序列就組成一個規模爲N的序列數據集。考慮這些時間上的因素以後，咱們就能獲得一些比關聯規則更有價值的規律，好比關聯挖掘常常能挖掘出如啤酒和尿布的搭配規律，而序列模式挖掘則能挖掘出諸如《育兒指南》->嬰兒車這樣帶有必定因果性質的規律。因此，序列模式挖掘比關聯挖掘能獲得更深入的知識。