關聯規則(Association Rules)是反映一個事物與其餘事物之間的相互依存性和關聯性,若是兩個或多個事物之間存在必定的關聯關係,那麼,其中一個事物就能經過其餘事物預測到。關聯規則是數據挖掘的一個重要技術,用於從大量數據中挖掘出有價值的數據項之間的相關關係。算法
關聯分析中的關係表現爲兩種形式:頻繁項集——常常同時出現的一些元素的集合;關聯規則——表示物品或屬性之間可能存在的強關係。spa
①沃爾瑪超市的尿布與啤酒;blog
②百度文庫推薦相關文檔;ci
③淘寶推薦相關書籍文檔
和關聯規則相關的指標有兩個,分別爲置信度和支持度。一般會設置置信度和支持度的閾值,當分析獲得的關聯關係達到二者的閾值時,這樣的關聯規則被認爲是有趣的。數據挖掘
置信度用來度量每一個關聯規則在前提條件下結果發生的可能性。對於的關聯規則,其置信度計算公式爲:io
N(A)表示含A的樣本數,N(A,B)表示既含A又含B的樣本數。原理
經過置信度,咱們能夠知道結果是個例仍是具備廣泛性。百度
支持度用來度量包含了關聯分析中出現的屬性值的樣本數佔整個數據集的百分比,計算方法以下:書籍
其中N(I)表示數據集I的樣本數。
1)生成條目集,條目是符合必定支持度要求的「屬性值-值」的組合。
2)使用生成的條目集建立一組關聯規則。