許多商業企業運營中的大量數據,一般稱爲購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個惟一標識TID。
利用關聯分析的方法能夠發現聯繫如關聯規則或頻繁項集。
關聯分析須要處理的關鍵問題:html
二元表示
沒按過對應一個事務,每列對應一個項,項用二元變量表示算法
項在事務中出現比不出現更重要,所以項是非對稱的的二元變量。
項集(Itemset):包含0個或多個項的集合,若是包含k個項,則稱爲k-項集。
事務的寬度:事務中出現的項的個數
支持度數(Support count):包含特定項集的事務個數,項集X的支持度數爲\(\sigma(X) = |{t_i | X \subseteq t_i, t_i \in T}|\),其中T爲事務集合
關聯規則(association rule):如\(X \to Y\)的蘊含表達式,其中X和Y是不相交的項集,\(X \cap Y = \varnothing\)。關聯規則的強度能夠用支持度(support)和置信度(confidence)度量。支持度肯定規則能夠用於給定數據集的頻繁程度,而置信度肯定Y在包含X的事務中出現的頻繁程度。支持度s和置信度c:
\[ s(X \to Y) = \frac{\sigma(X \cup Y)}{N} \]
\[ c(X \to Y) = \frac{\sigma(X \cup Y)}{\sigma(X)} \]
使用支持度和置信度緣由:ide
在解析關聯分析的結果時,應當當心,規則作出去的推論並沒必要然蘊含因果關係。它只表示規則前件和後件中的項明顯地同時出現。另外一方面,因果關係須要關於數據中緣由和結果屬性的知識,而且一般涉及長期出現的聯繫。性能
關聯規則發現:給定事務集合T,關聯規則發現是指找到支持度大於等於閾值minsup而且置信度大於等於minconf的全部規則。
挖掘關聯規則的一種原始方法是計算每一個可能規則的支持度和置信度,可是代價很高。所以提升性能的方法是拆分支持度和置信度。由於規則的支持度主要依賴於\(X \cup Y\)的支持度,所以大多數關聯規則挖掘算法一般採用的策略是分解爲兩步:spa
關聯分析:
數據挖掘之關聯分析一(基本概念)
數據挖掘之關聯分析二(頻繁項集的產生)
數據挖掘之關聯分析三(規則的產生)
數據挖掘之關聯分析四(連續屬性處理)
數據挖掘之關聯分析五(序列模式)
數據挖掘之關聯分析六(子圖模式)
數據挖掘之關聯分析七(非頻繁模式)htm