關聯分析原理小結

1. 關聯

關聯, 指的是關聯分析, 這裏引用百度百科的定義.算法

關聯分析又稱關聯挖掘,就是在交易數據、關係數據或其餘信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。學習

經過關聯分析, 能夠挖掘出"因爲某些事件的發生而引發另一些事件的發生"之類的規則, 好比說"炸雞>>啤酒", 其中炸雞被稱爲規則的前項, 而啤酒則被稱爲規則的後項.
經常使用於關聯分析的算法有Apriori算法, FP-growth算法, Eclat算法, 灰色關聯法等, 下面將着重介紹Apriori算法.對象

2. Apriori算法

在介紹Apriori算法以前, 咱們先來了解幾個概念:
1.事務: 一條交易記錄稱爲一個事務
2.項: 交易中的每個物品稱爲一個項
3.項集: 包含0個或多個項的集合
4.支持度計數: 項集在全部事務中出現的次數.
5.支持度: 支持度計數除於總的事務數.
6.頻繁項集: 支持度大於等於某個閥值的項集.
關聯規則的挖掘一般分爲兩步: 第一步, 找出全部的頻繁項集; 第二步, 由頻繁項集產生強關聯規則. 而Apriori算法則是挖掘頻繁項集的基本算法.事件

Apriori的主要思想是找出存在於事務數據集中的頻繁項集, 再利用獲得的頻繁項集與預先設定的最小置信度閥值生成強關聯規則. 其過程大體能夠描述爲: 首先, 根據最小支持度掃描全部候選項集, 從而找出頻繁1-項集的集合. 而後, 再使用頻繁1-項集的集合找出頻繁2-項集的集合, 如此下去, 直到不能找出頻繁k-項集.事務

能夠看到以上每一個過程均須要掃描一次數據, 爲了提升頻繁項集逐層迭代產生的效率, 須要利用一條重要性質, 其稱爲先驗性質:數據分析

先驗性質: 頻繁項集的全部非空子集也必定是頻繁的.io

固然, 非頻繁項集的全部超集也必定是非頻繁的.效率

將先驗性質應用到Apriori算法中就是將以前的過程分爲兩大部分, 鏈接步和剪枝步.
鏈接步: 鏈接步的目的是產生候選項集.
剪枝步: 應用先驗性質對候選項集進行篩選, 將不知足先驗性質的候選項集剔除, 再進而根據最小支持度找出最大頻繁項集, 這樣能夠有效縮短計算量.百度

關聯分析的目標是找出強關聯規則, 所以這裏的關聯規則是指強關聯規則, 咱們把知足最小支持度和最小置信度的規則稱爲強關聯規則.
對於規則A=>B, 置信度的計算公式就是項集{A, B}的支持度計數除於項集{A}的支持度計數.引用

3. 優缺點

優勢: 簡單, 易理解, 對數據要求低
缺點: 容易產生過多的候選項集, I/O負載大.

參考:
百度百科《關聯》
《數據分析與挖掘實戰》

聲明:本文僅用於學習交流

相關文章
相關標籤/搜索