MongoDB Aggregation Framework初探

    MongoDB 2.1 多了新Feature - Aggregation Framework。最近工做須要就稍微看了下,Mark之。 java

Overview sql

    Aggregation 提供的功能map-reduce也能作(諸如統計平均值,求和等)。官方那個大胖子說這東西比map-reduce簡單, map-reduce 我沒用過, 不過從使用Aggregation的狀況來看, 進行統計等操做仍是蠻方便的。 mongodb

    整體而言,Aggregation就是相似 Unix-like中的 管道 的概念,能夠將不少數據流串起來,不一樣的數據處理階段能夠再上一個階段的基礎上再次加工。 數據庫

Pipeline-Operator 數組

    比較經常使用的有:     app

    •$project -  能夠重構數據
    •$match - 能夠實現相似query的功能
    •$limit - 限制返回個數,你懂的
    •$skip - 同上
    •$unwind - 能夠將一個包含數組的文檔切分紅多個, 好比你的文檔有 中有個數組字段 A, A中有10個元素, 那麼                                 通過 $unwind處理後會產生10個文檔,這些文檔只有 字段 A不一樣
    •$group - 統計操做, 還提供了一系列子命令
         –$avg, $sum …

    •$sort  - 排序 code

Usage - Java server

    我在db中造了些數據(數據時隨機生成的, 能用便可),沒有建索引,文檔結構以下:


Document結構:
  {
   "_id" : ObjectId("509944545"),
   "province" : "海南",
   "age" : 21,
   "subjects" : [
 	{
 	"name":"語文",
 	"score" : 53
 	},
 	{
 	"name":"數學",
 	"score" : 27
 	},
 	{
 	"name":"英語",
 	"score" : 35
 	}
     ],
   "name" : "劉雨"
  }
     接下來要實現兩個功能:
  1.     統計上海學平生均年齡
  2.     統計每一個省各科平均成績 排序

    接下來一一道來 索引

    統計上海學平生均年齡

    從這個需求來說,要實現功能要有幾個步驟: 1. 找出上海的學生. 2. 統計平均年齡 (固然也能夠先算出全部省份的平均值再找出上海的)。如此思路也就清晰了

    首先上 $match, 取出上海學生

    {$match:{'province':'上海'}}
    接下來 用 $group 統計平均年齡


    {$group:{_id:’$province’,$avg:’$age’}}
    $avg 是 $group的子命令,用於求平均值,相似的還有 $sum, $max ....

    上面兩個命令等價於

    select province, avg(age) 
     from student 
     where province = '上海' 
     group by province

    下面是Java代碼

    Mongo m = new Mongo("localhost", 27017);
     DB db = m.getDB("test");
     DBCollection coll = db.getCollection("student");
    
     /*建立 $match, 做用至關於query*/
     DBObject match = new BasicDBObject("$match", new BasicDBObject("province", "上海"));
     
     /* Group操做*/
     DBObject groupFields = new BasicDBObject("_id", "$province");
     groupFields.put("AvgAge", new BasicDBObject("$avg", "$age"));
     DBObject group = new BasicDBObject("$group", groupFields);
     
     /* 查看Group結果 */
     AggregationOutput output = coll.aggregate(match, group); // 執行 aggregation命令
     System.out.println(output.getCommandResult());
    輸出結果:
    { "serverUsed" : "localhost/127.0.0.1:27017" ,        
      "result" : [ 
     	{ "_id" : "上海" , "AvgAge" : 32.09375}
        ] , 	  	 
       "ok" : 1.0
     }
    如此工程就結束了,再看另一個需求


    統計每一個省各科平均成績

    首先更具數據庫文檔結構,subjects是數組形式,須要先‘劈’開,而後再進行統計

    主要處理步驟以下:

    1. 先用$unwind 拆數組 2. 按照 province, subject 分租並求各科目平均分

    $unwind 拆數組

    {$unwind:’$subjects’}
    按照 province, subject 分組,並求平均分
    {$group:{
         _id:{
             subjname:」$subjects.name」,   // 指定group字段之一 subjects.name, 並重命名爲 subjname
             province:’$province’         // 指定group字段之一 province, 並重命名爲 province(沒變)
          },
         AvgScore:{
            $avg:」$subjects.score」        // 對 subjects.score 求平均
         }
     }
    java代碼以下:


    Mongo m = new Mongo("localhost", 27017);
     DB db = m.getDB("test");
     DBCollection coll = db.getCollection("student");
     
     /* 建立 $unwind 操做, 用於切分數組*/
     DBObject unwind = new BasicDBObject("$unwind", "$subjects");
     
     /* Group操做*/
     DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
     groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
     DBObject group = new BasicDBObject("$group", groupFields);
    
     /* 查看Group結果 */
     AggregationOutput output = coll.aggregate(unwind, group);  // 執行 aggregation命令
     System.out.println(output.getCommandResult());
    輸出結果



    { "serverUsed" : "localhost/127.0.0.1:27017" , 
        "result" : [ 
          { "_id" : { "subjname" : "英語" , "province" : "海南"} , "AvgScore" : 58.1} , 
          { "_id" : { "subjname" : "數學" , "province" : "海南"} , "AvgScore" : 60.485} ,
          { "_id" : { "subjname" : "語文" , "province" : "江西"} , "AvgScore" : 55.538} , 
          { "_id" : { "subjname" : "英語" , "province" : "上海"} , "AvgScore" : 57.65625} , 
          { "_id" : { "subjname" : "數學" , "province" : "廣東"} , "AvgScore" : 56.690} , 
          { "_id" : { "subjname" : "數學" , "province" : "上海"} , "AvgScore" : 55.671875} ,
          { "_id" : { "subjname" : "語文" , "province" : "上海"} , "AvgScore" : 56.734375} , 
          { "_id" : { "subjname" : "英語" , "province" : "雲南"} , "AvgScore" : 55.7301 } ,
          .
          .
          .
          .
         "ok" : 1.0
     }
    統計就此結束.... 稍等,彷佛有點太粗糙了,雖然統計出來的,可是根本無法看,同一個省份的科目都不在一塊兒。囧


    接下來進行下增強, 

    支線任務: 將同一省份的科目成績統計到一塊兒( 即,指望 'province':'xxxxx', avgscores:[ {'xxx':xxx}, ....] 這樣的形式)

    要作的有一件事,在前面的統計結果的基礎上,先用 $project 將平均分和成績揉到一塊兒,即形以下面的樣子

    { "subjinfo" : { "subjname" : "英語" ,"AvgScores" : 58.1 } ,"province" : "海南" }

    再按省份group,將各科目的平均分push到一塊,命令以下:

    $project 重構group結果

    {$project:{province:"$_id.province", subjinfo:{"subjname":"$_id.subjname", "avgscore":"$AvgScore"}}
    $使用 group 再次分組
    {$group:{_id:"$province", avginfo:{$push:"$subjinfo"}}}
    java 代碼以下:
    Mongo m = new Mongo("localhost", 27017);
    DB db = m.getDB("test");
    DBCollection coll = db.getCollection("student");
     			
    /* 建立 $unwind 操做, 用於切分數組*/
    DBObject unwind = new BasicDBObject("$unwind", "$subjects");
     			
    /* Group操做*/
    DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
    groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
    DBObject group = new BasicDBObject("$group", groupFields);
     			
    /* Reshape Group Result*/
    DBObject projectFields = new BasicDBObject();
    projectFields.put("province", "$_id.province");
    projectFields.put("subjinfo", new BasicDBObject("subjname","$_id.subjname").append("avgscore", "$AvgScore"));
    DBObject project = new BasicDBObject("$project", projectFields);
     			
    /* 將結果push到一塊兒*/
    DBObject groupAgainFields = new BasicDBObject("_id", "$province");
    groupAgainFields.put("avginfo", new BasicDBObject("$push", "$subjinfo"));
    DBObject reshapeGroup = new BasicDBObject("$group", groupAgainFields);
     
    /* 查看Group結果 */
    AggregationOutput output = coll.aggregate(unwind, group, project, reshapeGroup);
    System.out.println(output.getCommandResult());

    結果以下:

    { "serverUsed" : "localhost/127.0.0.1:27017" , 
      "result" : [ 
           { "_id" : "遼寧" , "avginfo" : [ { "subjname" : "數學" , "avgscore" : 56.46666666666667} , { "subjname" : "英語" , "avgscore" : 52.093333333333334} , { "subjname" : "語文" , "avgscore" : 50.53333333333333}]} , 
           { "_id" : "四川" , "avginfo" : [ { "subjname" : "數學" , "avgscore" : 52.72727272727273} , { "subjname" : "英語" , "avgscore" : 55.90909090909091} , { "subjname" : "語文" , "avgscore" : 57.59090909090909}]} , 
           { "_id" : "重慶" , "avginfo" : [ { "subjname" : "語文" , "avgscore" : 56.077922077922075} , { "subjname" : "英語" , "avgscore" : 54.84415584415584} , { "subjname" : "數學" , "avgscore" : 55.33766233766234}]} , 
           { "_id" : "安徽" , "avginfo" : [ { "subjname" : "英語" , "avgscore" : 55.458333333333336} , { "subjname" : "數學" , "avgscore" : 54.47222222222222} , { "subjname" : "語文" , "avgscore" : 52.80555555555556}]} 
        .
        .
        .
       ] , "ok" : 1.0}
    至此,功能也就完成了,呼。


    結語

    Aggravation 這就介紹完了, 固然還有不少細節沒說清楚,更多的資料能夠參考MongoDB官方文檔(http://docs.mongodb.org/manual/applications/aggregation/)。 期待後期再深刻挖掘其功能。

相關文章
相關標籤/搜索