數據挖掘之關聯分析一（基本概念）

時間 2019-11-08

標籤數據挖掘關聯分析基本概念简体版

原文原文鏈接

許多商業企業運營中的大量數據，一般稱爲購物籃事務（market basket transaction）。表中每一行對應一個事務，包含一個惟一標識TID。

利用關聯分析的方法能夠發現聯繫如關聯規則或頻繁項集。
關聯分析須要處理的關鍵問題：html

從大型事務數據集中發現模式可能在計算上要付出很高的代價。
所發現的某些模式多是假的，由於它們多是偶然發生的。

二元表示
沒按過對應一個事務，每列對應一個項，項用二元變量表示算法

項在事務中出現比不出現更重要，所以項是非對稱的的二元變量。
項集（Itemset）：包含0個或多個項的集合，若是包含k個項，則稱爲k-項集。
事務的寬度：事務中出現的項的個數
支持度數（Support count）：包含特定項集的事務個數，項集X的支持度數爲\(\sigma(X) = |{t_i | X \subseteq t_i, t_i \in T}|\)，其中T爲事務集合
關聯規則（association rule）：如\(X \to Y\)的蘊含表達式，其中X和Y是不相交的項集，\(X \cap Y = \varnothing\)。關聯規則的強度能夠用支持度（support）和置信度（confidence）度量。支持度肯定規則能夠用於給定數據集的頻繁程度，而置信度肯定Y在包含X的事務中出現的頻繁程度。支持度s和置信度c:
\[ s(X \to Y) = \frac{\sigma(X \cup Y)}{N} \]
\[ c(X \to Y) = \frac{\sigma(X \cup Y)}{\sigma(X)} \]
使用支持度和置信度緣由：ide

支持度很低的規則只能偶然出現，支持度一般用來刪除那些無心義的規則。還具備一種指望的性質，能夠用於關聯規則的發現。
置信度度量經過規則進行推理具備可靠性。對於給定的規則，置信度越高，Y在包含X的事務中出現的可能性越大。置信度也能夠估計Y在給定X的條件下機率。

在解析關聯分析的結果時，應當當心，規則作出去的推論並沒必要然蘊含因果關係。它只表示規則前件和後件中的項明顯地同時出現。另外一方面，因果關係須要關於數據中緣由和結果屬性的知識，而且一般涉及長期出現的聯繫。性能

關聯規則發現：給定事務集合T，關聯規則發現是指找到支持度大於等於閾值minsup而且置信度大於等於minconf的全部規則。
挖掘關聯規則的一種原始方法是計算每一個可能規則的支持度和置信度，可是代價很高。所以提升性能的方法是拆分支持度和置信度。由於規則的支持度主要依賴於\(X \cup Y\)的支持度，所以大多數關聯規則挖掘算法一般採用的策略是分解爲兩步：spa