FP-Growth算法的介紹

引言: 在關聯分析中,頻繁項集的挖掘最經常使用到的就是Apriori算法。Apriori算法是一種先產生候選項集再檢驗是否頻繁的「產生-測試」的方法。這種方法有種弊端:當數據集很大的時候,須要不斷掃描數據集形成運行效率很低。 而FP-Growth算法就很好地解決了這個問題。它的思路是把數據集中的事務映射到一棵FP-Tree上面,再根據這棵樹找出頻繁項集。FP-Tree的構建過程只須要掃描兩次數據集
相關文章
相關標籤/搜索