忽略那些前件和後件爲空的規則,每一個頻繁k項集可以產生\(2(2^k-1)\)個關聯規則。將頻繁項集Y劃分爲兩個非空子集X和Y-X,使得\(X \to Y-X\)能知足置信度閾值,就能夠獲得知足條件的規則。
在計算規則的置信度時並不須要再次掃描事務數據集,由於產生規則的頻繁項集和它們的子集也都是頻繁項集,咱們在提取頻繁項集時,已經計算過它們的支持度計數,於是不須要再掃描全部的數據集。html
置信度不像支持度那樣具備任何單調性。可是具備如下定理
定理:若是規則\(X \to Y-X\)不知足置信度閾值,則形如$ X' \to Y-X'$的規則也必定不知足置信度閾值,其中X'是X的子集。X'的支持度計數根據置信度計算公式可推理獲得算法
Apriori算法使用一種逐層方法來產生關聯規則,其中層數對應於規則的構建中的項數。初始提取規則後件只有一個項的全部高置信度規則,而後使用這些規則來產生新的候選規則。spa
若是$ {acd} \to {b} \(和\) {abd} \to {c} \(是兩個高置信度的規則,則經過合併兩個規則的後件產生候選規則,若是格中的任意結點置信度較低,則根據定理應該剪去該枝,假設\) {bcd} \to a $具備較低的置信度,則根據定理的條件剪去左右子集的枝。htm
數據挖掘之關聯分析一(基本概念)
數據挖掘之關聯分析二(頻繁項集的產生)
數據挖掘之關聯分析三(規則的產生)
數據挖掘之關聯分析四(連續屬性處理)
數據挖掘之關聯分析五(序列模式)
數據挖掘之關聯分析六(子圖模式)
數據挖掘之關聯分析七(非頻繁模式)blog