實戰Mahout聚類算法Canopy+K-means

     Mahout是Apache的頂級開源項目,它由Lucene衍生而來,且基於Hadoop的,對處理大規模數據的機器學習的經典算法提供了高效的實現。其中,對經典的聚類算法即提供了單機實現,同時也提供了基於hadoop分佈式的實現,都是很是好的學習資料。html

聚類分析

     聚類(Clustering)能夠簡單的理解爲將數據對象分爲多個簇(Cluster),每一個簇 裏的全部數據對象具備必定的類似性,這樣一個簇能夠看多一個總體對待,以此能夠提升計算質量或減小計算量。而數據對象間類似性的衡量有很多經典算法能夠用,但它們所需的數據結構基本一致,那就是向量;常見的有 歐幾里得距離算法、餘弦距離算法、皮爾遜相關係數算法等,Mahout對此都提供了實現,而且你能夠在實現本身的聚類時,經過接口切換不一樣的距離算法。java

數據模型

     在Mahout的聚類分析的計算過程當中,數據對象會轉化成向量(Vector)參與運算,在Mahout中的接口是org.apache.mahout.math.Vector  它裏面每一個域用一個浮點數(double)表示,你能夠經過繼承Mahout裏的基類如:AbstractVector來實現本身的向量模型,也能夠直接使用一些它提供的已有實現以下:web

    1. DenseVector,它的實現就是一個浮點數數組,對向量裏全部域都進行存儲,適合用於存儲密集向量。算法

    2. RandomAccessSparseVector 基於浮點數的 HashMap 實現的,key 是整形 (int) 類型,value 是浮點數(double) 類型,它只存儲向量中不爲空的值,並提供隨機訪問。shell

    3. SequentialAccessVector 實現爲整形 (int) 類型和浮點數 (double) 類型的並行數組,它也只存儲向量中不 爲空的值,但只提供順序訪問。apache

聚類算法K-means與Canopy

       首先介紹先K-means算法:全部作聚類分析的數據對象,會被描述成n爲空間中的一個點,用向量(Vector)表示;算法開始會隨機選擇K個點,做爲一個簇的中心,而後其他的點會根據它與每一個簇心的距離,被分配到最近簇中去;接着以迭代的方式,先從新計算每一個簇的中心(經過其包含的全部向量的平均值),計算完成後對全部點屬於哪一個簇進行從新劃分;一直如此迭代直到過程收斂;可證實迭代次數是有限的。編程

       雖然K-means簡單且高效,但它存在必定問題,首先K值(即簇的數量)是人爲肯定的,在對數據不瞭解的狀況下,很難給出合理的K值;其次初始簇心的選擇是隨機的,若選擇到了較孤立的點,會對聚類的效果產生很是大的影響。所以一般會用Canopy算法配合,進行初始化,肯定簇數以及初始簇心。數組

       Canopy算法首先會要求輸入兩個閥值 T1和T2,T1>T2;算法有一個集羣這裏叫Canopy的集合(Set),固然一開始它是空的;而後會將讀取到的第一個點做爲集合中的一個Canopy,接着讀取下一個點,若該點與集合中的每一個Canopy計算距離,若這個距離小於T1,則這個點會分配給這個Canopy(一個點能夠分配給多個Canopy),而當這個距離小於T2時這個點不能做爲一個新的Canopy而放到集合中。也就是說當一個點只要與集合中任意一個Canopy的距離小於T2了,即表示它裏那個Canopy太近不能做爲新的Canopy。若都沒有則生成一個新的Canopy放入集合中。以此循環,直到沒有點了。
服務器

       因此這裏用到的聚類分析算法的思路是:首先經過Canopy算法進行聚類,以肯定簇數以及初始簇心的,接着經過K-means算法進行迭代運算,收斂出最後的聚類結果。接下來咱們看看實現。數據結構

實戰

       首先須要Java的環境不用多說,我這用的JDK1.6;同時還須要搭建Hadoop分佈式系統,網上有不少帖子,這裏也不細講,個人版本是2.0.2。

       接着是安裝Mahout,你能夠經過svn獲取 http://svn.apache.org/repos/asf/mahout/trunk 但須要有maven的支持,你也能夠直接下載源碼 http://www.apache.org/dyn/closer.cgi/mahout/ 。推薦使用svn的方式;我這裏經過svn獲取源碼後,經過Maven進行編譯,生成以下項目:

       簡單說明下:  mahout-core:核心程序模塊;mahout-math:在覈心程序中使用的一些數據通用計算模塊;mahout-utils:在覈心程序中使用的一些通用的工具性模塊;最後 mahout-examples 是Mahout提供的一些實現的例子,可做爲使用Mahout進行編程的很是好的參考,咱們的例子也從這裏來。

      在 mahout-examples 中的 org.apache.mahout.clustering.syntheticcontrol.kmeans.Job類,對上述算法提供了較完整的實現,它是一個Hadoop的job,咱們從源代碼入手,看如何將實際的數據跑起來。下面是該類的核心邏輯代碼:

public static void run(Configuration conf, Path input, Path output,
                         DistanceMeasure measure, double t1, double t2, double convergenceDelta,
                         int maxIterations)
          throws Exception{
    Path directoryContainingConvertedInput = new Path(output,
        DIRECTORY_CONTAINING_CONVERTED_INPUT);
    log.info("Preparing Input");
    InputDriver.runJob(input, directoryContainingConvertedInput,
        "org.apache.mahout.math.RandomAccessSparseVector");
    log.info("Running Canopy to get initial clusters");
    CanopyDriver.run(conf, directoryContainingConvertedInput, output, measure,
        t1, t2, false, false);
    log.info("Running KMeans");
    KMeansDriver.run(conf, directoryContainingConvertedInput, new Path(output,
        Cluster.INITIAL_CLUSTERS_DIR), output, measure, convergenceDelta,
        maxIterations, true, false);
    // run ClusterDumper
    ClusterDumper clusterDumper = new ClusterDumper(finalClusterPath(conf,
        output, maxIterations), new Path(output, "clusteredPoints"));
    clusterDumper.printClusters(null);
  }

       這個例子中調用了3個Map/Reduce 任務以及一個轉換,它們以下:

       1. 第8行: InputDriver.runJob ( ) ,它用於將原始數據文件轉換成 Mahout進行計算所需格式的文件 SequenceFile,它是Hadoop API提供的一種二進制文件支持。這種二進制文件直接將<key, value>對序列化到文件中。

       2. 第11行:CanopyDriver.run( ) , 即用Canopy算法肯定初始簇的個數和簇的中心。

       3.  第14行:KMeansDriver.run( ) , 這顯然是K-means算法進行聚類。

       4. 第18~20行,ClusterDumper類將聚類的結果裝換並寫出來,若你瞭解了源代碼,你也能夠本身實現這個類的功能,由於聚類後的數據存儲格式,每每跟自身業務有關。 

         這裏細講下第一個Map/Reduce: InputDriver.runJob ( )由於咱們須要瞭解,初始數據的格式,其餘的任務CanopyDriver.run( )和KMeansDriver.run( )任務就不細講了,主要就是Canopy和K-means算法,原理已經介紹了,實現也不難,須要你瞭解hadoop編程。

      InputDriver.runJob( )實現也很是簡單,它只有Map,其代碼以下:

@Override
  protected void map(LongWritable key, Text values, Context context) throws IOException, InterruptedException {

    String[] numbers = SPACE.split(values.toString());
    // sometimes there are multiple separator spaces
    Collection<Double> doubles = Lists.newArrayList();
    for (String value : numbers) {
      if (!value.isEmpty()) {
        doubles.add(Double.valueOf(value));
      }
    }
    // ignore empty lines in data file
    if (!doubles.isEmpty()) {
      try {
        Vector result = (Vector) constructor.newInstance(doubles.size());
        int index = 0;
        for (Double d : doubles) {
          result.set(index++, d);
        }
        VectorWritable vectorWritable = new VectorWritable(result);
        context.write(new Text(String.valueOf(index)), vectorWritable);

      } catch (InstantiationException e) {
        throw new IllegalStateException(e);
      } catch (IllegalAccessException e) {
        throw new IllegalStateException(e);
      } catch (InvocationTargetException e) {
        throw new IllegalStateException(e);
      }
    }
  }

      由代碼能夠看出,它將你初始數據文件的每一行用空格切開成個 String[] numbers ,而後再將 numbers中的每一個String轉換成Double類型,並以今生成一個向量 Vector ,而後經過 SequenceFileOutputFormat的方式輸出成SequenceFile,以做下一步計算的輸入。由此咱們能夠了解到咱們的初始數據的格式須要 以一行爲一個單位,用空格分隔,每一列爲一個Double數便可(固然你也能夠反過來修改例子中的實現)。

       如此準備好初始數據後,咱們將mahout-examples 編譯並打成jar ,若你有用maven的話,它會自動幫你加載其所依賴的jar,若沒用,請確保很多jar,而後將該jar包放到搭建了hadoop環境的服務器上(Linux操做系統),我沒更名字,jar包叫mahout-examples-0.7-SNAPSHOT-job.jar。

      好了,一切準備就緒,咱們能夠在服務器上運行以下命令,來運行聚類任務:

hadoop jar ../mahout-examples-0.7-SNAPSHOT-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
    -i <數據輸入路徑> \
    -o <數據輸出路徑> \
    -k <K值> \
    -cl <是否先使用Canopy 算法初始化 true or false>
    -t1 <Canopy中的T1值>
    -t2 <Canopy中的T2值>
    -xm <執行方式: sequential(單機運行) or mapreduce(分佈式)>

       在運行完成以後,數據因爲是SequenceFile存儲還沒法查看,須要使用 Mahout 的 ClusterDump 程序轉儲聚類質心(和相關的點)。最終結果將存儲在 kmeans 目錄下名稱以 clusters- 開頭、以 -final 結尾的子目錄中。具體的值將取決於運行任務使用了多少次迭代,例如 clusters-2-final 是第三次迭代的輸出結果。可執行下面命令進行轉換。

hadoop jar /soft/mahout/mahout/examples/target/mahout-examples-0.7-SNAPSHOT-job.jar org.apache.mahout.utils.clustering.ClusterDumper -i ..(上一步的輸出路徑)/clusters-2-final/ --pointsDir ..(上一步輸出路徑)/clusteredPoints  -o <要保持的文件名>

       最後你就能夠在你指定的文件中查看聚類分析結果了。

參考資料:

https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering

https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering

http://www.ibm.com/developerworks/cn/java/j-mahout-scaling/

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/

《Mahout in action》

https://cwiki.apache.org/MAHOUT/cluster-dumper.html

原創博客,轉載請註明:http://my.oschina.net/BreathL/blog/58104

相關文章
相關標籤/搜索