關聯分析原理小結

時間 2019-11-26

標籤關聯分析原理小結简体版

原文原文鏈接

1. 關聯

關聯, 指的是關聯分析, 這裏引用百度百科的定義.算法

關聯分析又稱關聯挖掘，就是在交易數據、關係數據或其餘信息載體中，查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。學習

經過關聯分析, 能夠挖掘出"因爲某些事件的發生而引發另一些事件的發生"之類的規則, 好比說"炸雞>>啤酒", 其中炸雞被稱爲規則的前項, 而啤酒則被稱爲規則的後項.
經常使用於關聯分析的算法有Apriori算法, FP-growth算法, Eclat算法, 灰色關聯法等, 下面將着重介紹Apriori算法.對象

2. Apriori算法

在介紹Apriori算法以前, 咱們先來了解幾個概念:
1.事務: 一條交易記錄稱爲一個事務
2.項: 交易中的每個物品稱爲一個項
3.項集: 包含0個或多個項的集合
4.支持度計數: 項集在全部事務中出現的次數.
5.支持度: 支持度計數除於總的事務數.
6.頻繁項集: 支持度大於等於某個閥值的項集.
關聯規則的挖掘一般分爲兩步: 第一步, 找出全部的頻繁項集; 第二步, 由頻繁項集產生強關聯規則. 而Apriori算法則是挖掘頻繁項集的基本算法.事件

Apriori的主要思想是找出存在於事務數據集中的頻繁項集, 再利用獲得的頻繁項集與預先設定的最小置信度閥值生成強關聯規則. 其過程大體能夠描述爲: 首先, 根據最小支持度掃描全部候選項集, 從而找出頻繁1-項集的集合. 而後, 再使用頻繁1-項集的集合找出頻繁2-項集的集合, 如此下去, 直到不能找出頻繁k-項集.事務

能夠看到以上每一個過程均須要掃描一次數據, 爲了提升頻繁項集逐層迭代產生的效率, 須要利用一條重要性質, 其稱爲先驗性質:數據分析