用Spark學習FP Tree算法和PrefixSpan算法

時間 2019-11-07

標籤 spark 學習 tree 算法 prefixspan 欄目 Spark 简体版

原文原文鏈接

在FP Tree算法原理總結和PrefixSpan算法原理總結中，咱們對FP Tree和PrefixSpan這兩種關聯算法的原理作了總結，這裏就從實踐的角度介紹如何使用這兩個算法。因爲scikit-learn中沒有關聯算法的類庫，而Spark MLlib有，本文的使用以Spark MLlib做爲使用環境。html

1、1. Spark MLlib關聯算法概述

　　　　在Spark MLlib中，也只實現了兩種關聯算法，即咱們的FP Tree和PrefixSpan，而像Apriori,GSP之類的關聯算法是沒有的。而這些算法支持Python,Java,Scala和R的接口。因爲前面的實踐篇咱們都是基於Python，本文的後面的介紹和使用也會使用MLlib的Python接口。python

　　　　 Spark MLlib關聯算法基於Python的接口在pyspark.mllib.fpm包中。FP Tree算法對應的類是pyspark.mllib.fpm.FPGrowth(如下簡稱FPGrowth類)，從Spark1.4開始纔有。而PrefixSpan算法對應的類是pyspark.mllib.fpm.PrefixSpan(如下簡稱PrefixSpan類)，從Spark1.6開始纔有。所以若是你的學習環境的Spark低於1.6的話，是不能正常的運行下面的例子的。git

　　　　 Spark MLlib也提供了讀取關聯算法訓練模型的類，分別是 pyspark.mllib.fpm.FPGrowthModel和pyspark.mllib.fpm.PrefixSpanModel。這兩個類能夠把咱們以前保存的FP Tree和PrefixSpan訓練模型讀出來。github

2、Spark MLlib關聯算法參數介紹

　　　　對於FPGrowth類，使用它的訓練函數train主要須要輸入三個參數：數據項集data，支持度閾值minSupport和數據並行運行時的數據分塊數numPartitions。對於支持度閾值minSupport，它的取值大小影響最後的頻繁項集的集合大小，支持度閾值越大，則最後的頻繁項集數目越少，默認值0.3。而數據並行運行時的數據分塊數numPartitions主要在分佈式環境的時候有用，若是你是單機Spark，則能夠忽略這個參數。算法

　　　　對於PrefixSpan類，使用它的訓練函數train主要須要輸入四個參數：序列項集data，支持度閾值minSupport，最長頻繁序列的長度maxPatternLength 和最大單機投影數據庫的項數maxLocalProjDBSize。支持度閾值minSupport的定義和FPGrowth類相似，惟一差異是閾值默認值爲0.1。maxPatternLength限制了最長的頻繁序列的長度，越小則最後的頻繁序列數越少。maxLocalProjDBSize參數是爲了保護單機內存不被撐爆。若是隻是是少許數據的學習，能夠忽略這個參數。數據庫

　　　　從上面的描述能夠看出，使用FP Tree和PrefixSpan算法沒有什麼門檻。學習的時候能夠經過控制支持度閾值minSupport控制頻繁序列的結果。而maxPatternLength能夠幫忙PrefixSpan算法篩除太長的頻繁序列。在分佈式的大數據環境下，則須要考慮FPGrowth算法的數據分塊數numPartitions，以及PrefixSpan算法的最大單機投影數據庫的項數maxLocalProjDBSize。微信

3、Spark FP Tree和PrefixSpan算法使用示例

　　　　這裏咱們用一個具體的例子來演示如何使用Spark FP Tree和PrefixSpan算法挖掘頻繁項集和頻繁序列。app

　　　　完整代碼參見個人github: https://github.com/nickchen121/machinelearning/blob/master/classic-machine-learning/fp_tree_prefixspan.ipynb分佈式

　　　　要使用 Spark 來學習FP Tree和PrefixSpan算法，首先須要要確保你安裝好了Hadoop和Spark（版本不小於1.6），並設置好了環境變量。通常咱們都是在ipython notebook(jupyter notebook)中學習，因此最好把基於notebook的Spark環境搭好。固然不搭notebook的Spark環境也沒有關係，只是每次須要在運行前設置環境變量。函數

　　　　若是你沒有搭notebook的Spark環境，則須要先跑下面這段代碼。固然，若是你已經搭好了，則下面這段代碼不用跑了。

import os
import sys

#下面這些目錄都是你本身機器的Spark安裝目錄和Java安裝目錄
os.environ['SPARK_HOME'] = "C:/Tools/spark-1.6.1-bin-hadoop2.6/"

sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/bin")
sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/python")
sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/python/pyspark")
sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/python/lib")
sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip")
sys.path.append("C:/Tools/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip")
sys.path.append("C:/Program Files (x86)/Java/jdk1.8.0_102")

from pyspark import SparkContext
from pyspark import SparkConf


sc = SparkContext("local","testing")

　　　　在跑算法以前，建議輸出Spark Context以下，若是能夠正常打印內存地址，則說明Spark的運行環境搞定了。

print sc

　　　　好比個人輸出是：

<;pyspark.context.SparkContext object at 0x07D9E2B0>;
　　　　如今咱們來用數據來跑下FP Tree算法，爲了和FP Tree算法原理總結中的分析比照，咱們使用和原理篇同樣的數據項集，同樣的支持度閾值20%，來訓練數據。代碼以下：

from  pyspark.mllib.fpm import FPGrowth
data = [["A", "B", "C", "E", "F","O"], ["A", "C", "G"], ["E","I"], ["A", "C","D","E","G"], ["A", "C", "E","G","L"],
       ["E","J"],["A","B","C","E","F","P"],["A","C","D"],["A","C","E","G","M"],["A","C","E","G","N"]]
rdd = sc.parallelize(data, 2)
#支持度閾值爲20%
model = FPGrowth.train(rdd, 0.2, 2)

　　　　咱們接着來看看頻繁項集的結果，代碼以下：

sorted(model.freqItemsets().collect())

　　　　輸出即爲全部知足要求的頻繁項集，你們能夠和原理篇裏面分析時產生的頻繁項集比較。代碼輸出以下：

[FreqItemset(items=[u'A'], freq=8),
FreqItemset(items=[u'B'], freq=2),
FreqItemset(items=[u'B', u'A'], freq=2),
FreqItemset(items=[u'B', u'C'], freq=2),
FreqItemset(items=[u'B', u'C', u'A'], freq=2),
FreqItemset(items=[u'B', u'E'], freq=2),
FreqItemset(items=[u'B', u'E', u'A'], freq=2),
FreqItemset(items=[u'B', u'E', u'C'], freq=2),
FreqItemset(items=[u'B', u'E', u'C', u'A'], freq=2),
FreqItemset(items=[u'C'], freq=8),
FreqItemset(items=[u'C', u'A'], freq=8),
FreqItemset(items=[u'D'], freq=2),
FreqItemset(items=[u'D', u'A'], freq=2),
FreqItemset(items=[u'D', u'C'], freq=2),
FreqItemset(items=[u'D', u'C', u'A'], freq=2),
FreqItemset(items=[u'E'], freq=8),
FreqItemset(items=[u'E', u'A'], freq=6),
FreqItemset(items=[u'E', u'C'], freq=6),
FreqItemset(items=[u'E', u'C', u'A'], freq=6),
FreqItemset(items=[u'F'], freq=2),
FreqItemset(items=[u'F', u'A'], freq=2),
FreqItemset(items=[u'F', u'B'], freq=2),
FreqItemset(items=[u'F', u'B', u'A'], freq=2),
FreqItemset(items=[u'F', u'B', u'C'], freq=2),
FreqItemset(items=[u'F', u'B', u'C', u'A'], freq=2),
FreqItemset(items=[u'F', u'B', u'E'], freq=2),
FreqItemset(items=[u'F', u'B', u'E', u'A'], freq=2),
FreqItemset(items=[u'F', u'B', u'E', u'C'], freq=2),
FreqItemset(items=[u'F', u'B', u'E', u'C', u'A'], freq=2),
FreqItemset(items=[u'F', u'C'], freq=2),
FreqItemset(items=[u'F', u'C', u'A'], freq=2),
FreqItemset(items=[u'F', u'E'], freq=2),
FreqItemset(items=[u'F', u'E', u'A'], freq=2),
FreqItemset(items=[u'F', u'E', u'C'], freq=2),
FreqItemset(items=[u'F', u'E', u'C', u'A'], freq=2),
FreqItemset(items=[u'G'], freq=5),
FreqItemset(items=[u'G', u'A'], freq=5),
FreqItemset(items=[u'G', u'C'], freq=5),
FreqItemset(items=[u'G', u'C', u'A'], freq=5),
FreqItemset(items=[u'G', u'E'], freq=4),
FreqItemset(items=[u'G', u'E', u'A'], freq=4),
FreqItemset(items=[u'G', u'E', u'C'], freq=4),
FreqItemset(items=[u'G', u'E', u'C', u'A'], freq=4)]
　　　　接着咱們來看看使用PrefixSpan類來挖掘頻繁序列。爲了和PrefixSpan算法原理總結中的分析比照，咱們使用和原理篇同樣的數據項集，同樣的支持度閾值50%，同時將最長頻繁序列程度設置爲4，來訓練數據。代碼以下：

from  pyspark.mllib.fpm import PrefixSpan
data = [
   [['a'],["a", "b", "c"], ["a","c"],["d"],["c", "f"]],
   [["a","d"], ["c"],["b", "c"], ["a", "e"]],
   [["e", "f"], ["a", "b"], ["d","f"],["c"],["b"]],
   [["e"], ["g"],["a", "f"],["c"],["b"],["c"]]
   ]
rdd = sc.parallelize(data, 2)
model = PrefixSpan.train(rdd, 0.5,4)

　　　咱們接着來看看頻繁序列的結果，代碼以下：　

sorted(model.freqSequences().collect())

　　　輸出即爲全部知足要求的頻繁序列，你們能夠和原理篇裏面分析時產生的頻繁序列比較。代碼輸出以下：　

[FreqSequence(sequence=[[u'a']], freq=4),
FreqSequence(sequence=[[u'a'], [u'a']], freq=2),
FreqSequence(sequence=[[u'a'], [u'b']], freq=4),
FreqSequence(sequence=[[u'a'], [u'b'], [u'a']], freq=2),
FreqSequence(sequence=[[u'a'], [u'b'], [u'c']], freq=2),
FreqSequence(sequence=[[u'a'], [u'b', u'c']], freq=2),
FreqSequence(sequence=[[u'a'], [u'b', u'c'], [u'a']], freq=2),
FreqSequence(sequence=[[u'a'], [u'c']], freq=4),
FreqSequence(sequence=[[u'a'], [u'c'], [u'a']], freq=2),
FreqSequence(sequence=[[u'a'], [u'c'], [u'b']], freq=3),
FreqSequence(sequence=[[u'a'], [u'c'], [u'c']], freq=3),
FreqSequence(sequence=[[u'a'], [u'd']], freq=2),
FreqSequence(sequence=[[u'a'], [u'd'], [u'c']], freq=2),
FreqSequence(sequence=[[u'a'], [u'f']], freq=2),
FreqSequence(sequence=[[u'b']], freq=4),
FreqSequence(sequence=[[u'b'], [u'a']], freq=2),
FreqSequence(sequence=[[u'b'], [u'c']], freq=3),
FreqSequence(sequence=[[u'b'], [u'd']], freq=2),
FreqSequence(sequence=[[u'b'], [u'd'], [u'c']], freq=2),
FreqSequence(sequence=[[u'b'], [u'f']], freq=2),
FreqSequence(sequence=[[u'b', u'a']], freq=2),
FreqSequence(sequence=[[u'b', u'a'], [u'c']], freq=2),
FreqSequence(sequence=[[u'b', u'a'], [u'd']], freq=2),
FreqSequence(sequence=[[u'b', u'a'], [u'd'], [u'c']], freq=2),
FreqSequence(sequence=[[u'b', u'a'], [u'f']], freq=2),
FreqSequence(sequence=[[u'b', u'c']], freq=2),
FreqSequence(sequence=[[u'b', u'c'], [u'a']], freq=2),
FreqSequence(sequence=[[u'c']], freq=4),
FreqSequence(sequence=[[u'c'], [u'a']], freq=2),
FreqSequence(sequence=[[u'c'], [u'b']], freq=3),
FreqSequence(sequence=[[u'c'], [u'c']], freq=3),
FreqSequence(sequence=[[u'd']], freq=3),
FreqSequence(sequence=[[u'd'], [u'b']], freq=2),
FreqSequence(sequence=[[u'd'], [u'c']], freq=3),
FreqSequence(sequence=[[u'd'], [u'c'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e']], freq=3),
FreqSequence(sequence=[[u'e'], [u'a']], freq=2),
FreqSequence(sequence=[[u'e'], [u'a'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e'], [u'a'], [u'c']], freq=2),
FreqSequence(sequence=[[u'e'], [u'a'], [u'c'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e'], [u'b'], [u'c']], freq=2),
FreqSequence(sequence=[[u'e'], [u'c']], freq=2),
FreqSequence(sequence=[[u'e'], [u'c'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e'], [u'f']], freq=2),
FreqSequence(sequence=[[u'e'], [u'f'], [u'b']], freq=2),
FreqSequence(sequence=[[u'e'], [u'f'], [u'c']], freq=2),
FreqSequence(sequence=[[u'e'], [u'f'], [u'c'], [u'b']], freq=2),
FreqSequence(sequence=[[u'f']], freq=3),
FreqSequence(sequence=[[u'f'], [u'b']], freq=2),
FreqSequence(sequence=[[u'f'], [u'b'], [u'c']], freq=2),
FreqSequence(sequence=[[u'f'], [u'c']], freq=2),
FreqSequence(sequence=[[u'f'], [u'c'], [u'b']], freq=2)]
　　在訓練出模型後，咱們也能夠調用save方法將模型存到磁盤，而後在須要的時候經過FPGrowthModel或PrefixSpanModel將模型讀出來。