MongoDB學習筆記——聚合操做之聚合管道(Aggregation Pipeline)

MongoDB聚合管道

使用聚合管道能夠對集合中的文檔進行變換和組合。 管道是由一個個功能節點組成的,這些節點用管道操做符來進行表示。聚合管道以一個集合中的全部文檔做爲開始,而後這些文檔從一個操做節點流向下一個節點 ,每一個操做節點對文檔作相應的操做。這些操做可能會建立新的文檔或者過濾掉一些不符合條件的文檔,在管道中能夠對文檔進行重複操做。 管道表達式只能夠操做當前管道中的文檔,不能訪問其餘的文檔:表達式操做能夠在內存中完成對文檔的轉換。 html

語法格式: mongodb

 

db.runCommand({ 

 aggregate: "<collection>", 

 pipeline: [ <stage>, <...> ], 

 explain: <boolean>, 

 allowDiskUse: <boolean>, 

 cursor: <document>, 

 bypassDocumentValidation: <boolean> 

 }) 

// 

 db.collection.aggregate([ <pipeline>, <...> ], options) 

參數說明: 數據庫

操做符express

描述數組

aggregateide

要聚合的集合名稱函數

pipelinespa

管道操做符code

explainhtm

返回指定aggregate各個階段管道的執行計劃信息

allowDiskUse

每一個階段管道限制爲100MB的內存,若是大於100MB的數據能夠先寫入臨時文件。設置爲true時,aggregate操做可時能夠先將數據寫入對應數據目錄的子目錄中 的惟一併以_tmp結尾的文檔中。

cursor

指定遊標的初始批批大小。光標的字段的值是一個與場batchSize文件。 }

bypassDocumentValidation

只有當你指定了$out操做符,使db.collection.aggregate繞過文檔驗證操做過程當中。這讓您插入不符合驗證要求的文檔。

管道操做符:

管道操做符

描述

$project

數據投影,主要用於重命名、增長和刪除字段

$match

過濾操做,篩選符合條件文檔,做爲下一階段的輸入 $match的語法和查詢表達式db.collection.find() 的語法相同 注意:1. 不能在$match操做符中使用$where 表達式操做符。 2. $match儘可能出如今管道的前面,這樣能夠提前過濾文檔,加快聚合速度。 3. 若是$match出如今最前面的話,能夠使用索引來加快查詢。

$limit

限制通過管道的文檔數量 $limit的參數只能是一個正整數

$skip

從待操做集合開始的位置跳過文檔的數目 $skip參數也只能爲一個正整數

$unwind

將數組分解爲單個的元素,並與文檔的其他部分一同返回 注意:1.若是$unwind目標字段不存在,則整個文檔都會被忽略過濾掉 2.若是$unwind目標字段不是一個數組,則會報錯 3.若是$unwind目標字段數組爲空,則該文檔也會被忽略過濾掉

$group

能夠將文檔依據指定字段的不一樣值進行分組,若是選定了須要進行分組的字段,就能夠將指定的字段傳遞給$group函數的_id字段 注意:1.$group的輸出是無序的。 2.$group操做默認實在內存中進行的,超過此限制會報錯,若要容許處理大型數據集,allowDiskUse 將選項設置爲啓用 $group 操做真實寫入臨時文件。具體請參考官方文檔

$sort

對文檔按照指定字段排序 注意:1.若是將$sort放到管道前面的話能夠利用索引,提升效率 2.在管道中若是$sort出如今$limit以前的話,$sort只會對前$limit個文檔進行操做,這樣在內存中也只會保留前$limit個文檔,從而能夠極大的節省內存 3.$sort操做符默認在內存中進行,,超過此限制會報錯,若要容許處理大型數據集,allowDiskUse 將選項設置爲啓用 $group 操做真實寫入臨時文件。具體請參考官方文檔

$geoNear

會返回一些座標值,這些值以按照距離指定點距離由近到遠進行排序

$sample

從待操做的集合中隨機返回指定數量的文檔 注意:若是指定的數量 N 大於等於集合文檔總數的5%$sample 執行集合掃描,執行排序,而後選擇前 N 的文檔(受排序的內存限制) 若是 N 是小於 5%的集合中的文檔總數 若是使用 WiredTiger 存儲引擎,$sample 使用僞隨機遊標在抽樣 N 文檔集合。 若是使用 MMAPv1 存儲引擎,$sample 使用 _id 索引隨機選擇 N 個文檔。

$lookup

用於與統一數據庫中其餘集合之間進行join操做

$out

用戶將聚合的結果輸出到指定的集合,若是要使用$out則必須在整個管道操做的最後階段 若是指定的集合尚不存在,$out 操做會在當前數據庫中建立一個新的集合。集合不是可見的直到聚合完成。若是聚合失敗,MongoDB 不會建立集合。 若是集合指定的 $out 操做已經存在,而後完成後的聚合,$out 階段以原子方式以新的結果集合替換現有集合的,$out 操做不會更改任何存在於之前的集合的索引。若是聚合失敗$out 則不會對現有集合作任何更改。

$redact

字段所處的document結構的級別. $redact還有三個重要的參數: 1$$DESCEND 返回包含當前document級別的全部字段,而且會繼續判字段包含內嵌文檔,內嵌文檔的字段也會去判斷是否符合條件。 2$$PRUNE:返回不包含當前文檔或者內嵌文檔級別的全部字段,不會繼續檢測此級別的其餘字段,即便這些字段的內嵌文檔持有相同的訪問級別。 3$$KEEP:返回包含當前文檔或內嵌文檔級別的全部字段,再也不繼續檢測此級別的其餘字段,即便這些字段的內嵌文檔中持有不一樣的訪問級別。

聚合管道操做實例

提取字段

 db.order.aggregate({ $project: { cust_id: 1, price: 1 } }); 

db.order.aggregate({ $project: { items: 1, items: { sku: 1 } } }); 

重命名字段

db.order.aggregate({ $project: { "orderid": '$_id', _id: 0, "custid": '$cust_id' } }); 

db.order.aggregate({ $project: { items: { '_sku': '$sku', sku: 1 } } }) 

新建文檔

db.order.aggregate({ 

 $project: { 

 price: 1, 

 details: { price: '$items.price' } 

 } 

}); 

注意:因爲對字段進行重命名時,MongoDB並不會記錄字段的歷史名稱,因此若是針對原來的字段建立過索引,那麼聚合管道在進行排序時沒法在下面的排序操做時使用索引, 應當儘可能在修改字段名稱以前使用排序

 db.order.aggregate([{ $project: { "orderid": '$_id', _id: 0, "custid": '$cust_id' } }, { $sort: { custid: -1 } }]) 

//建議寫法 

db.order.aggregate([{ $sort: { cust_id: -1 } }, { $project: { "orderid": '$_id', _id: 0, "custid": '$cust_id' } }]) 

{ $add: [ <expression1>, <expression2>, ... ] } 將多個數字或日期進行相加,只支持數字和時間格式,若是其中一個參數是日期,$add會將其餘參數視爲要添加到日期的毫秒

db.order.aggregate({ 

 $project: { 

 "add": { 

 "$add": ["$price", 1] 

 } 

 } 

}) 

{ $subtract: [ <expression1>, <expression2> ] } 接受兩個表達式做爲參數,使用第一個表達式減去第二個表達式做爲結果

db.order.aggregate({ 

 $project: { 

 "subtract": { 

 "$subtract": [{ "$add": ["$price", 12] }, 10] 

 } 

 } 

}) 

{ $multiply: [ <expression1>, <expression2>, ... ] } 接受一個或多個表達式,並將它們相乘

db.order.aggregate({ 

 $project: { 

 "multiply": { "$multiply": ["$price", 3] } 

 } 

}) 

{ $divide: [ <expression1>, <expression2> ] } 接受兩個表達式做爲參數,使用第一個表達式除以第二個表達式的商做爲結果

db.order.aggregate({ 

 $project: { 

 "divide": { "$divide": ["$price", 3] } 

 } 

}) 

更多數學表達式參考官方文檔 https://docs.mongodb.com/manual/reference/operator/aggregation-arithmetic/

{ $cond: { if: <boolean-expression>, then: <true-case>, else: <false-case-> } } { $cond: [ <boolean-expression>, <true-case>, <false-case> ] } 若是boolean-expressiontrue則執行true-case不然執行false-case

 

db.order.aggregate({ 

 $project: { 

 "price": { 

 "$cond": { if: { $gt: ["$price", 25] }, then: true, else: false } 

 } 

 } 

}); 

// 

db.order.aggregate({ 

 $project: { 

 "price": { 

 "$cond": [{ $gt: ["$price", 25] }, true, false] 

 } 

 } 

}); 

{ $ifNull: [ , ] } 若是expression null 則返回replacement-expression-if-null 不然返回expression的值

 

db.order.aggregate({ 

 $project: { 

 "total": { 

 "$ifNull": ["$total", 0] 

 } 

 } 

}) 

{ $and: [ <expression1>, <expression2>, ... ] } 若是全部表達式都返回true,則結果爲true,不然爲false 除了布爾類型false,如下幾種類型也爲false,如:null,0,undefined ;其它值則爲true,包括非0的值及數組

 //Example          Result 

{ $and: [1, "green"] } true 

{ $and: [] } true 

{ $and: [[null], [false], [0]] } true 

{ $and: [null, true] } false 

{ $and: [0, true] } false 

{ $or: [ <expression1>, <expression2>, ... ] } 只要有任意表達式爲true,則結果爲true,不然爲false 除了布爾類型false,如下幾種類型也爲false,如:null,0,undefined ;其它值則爲true,包括非0的值及數組

 

//Example          Result 

{ $or: [ true, false ] }          true 

{ $or: [ [ false ], false ] }     true 

{ $or: [ null, 0, undefined ] }     false 

{ $or: [] } false 

{ $not: [ <expression> ] } expression取反 除了布爾類型false,如下幾種類型也爲false,如:null,0,undefined ;其它值則爲true,包括非0的值及數組

//total不存在爲false,取反結果則爲true 

db.order.aggregate({ 

 $project: { 

 not: { 

 $not: "$total" 

 } 

 } 

}) 

$match 過濾操做,篩選符合條件文檔,做爲下一階段的輸入 $match的語法和查詢表達式db.collection.find() 的語法相同

 db.order.aggregate([{ $match: { cust_id: "1" } }, { 

 $project: { 

 "total": { 

 "$ifNull": ["$total", 0] 

 } 

 } 

}]) 

$out 用戶將聚合的結果輸出到指定的集合

db.order.aggregate([{ $match: { cust_id: "1" } }, { 

 $project: { 

 "total": { 

 "$ifNull": ["$total", 0] 

 } 

 } 

}, 

{ $out: "testaggregate" }]) 

$unwind 將數組分解爲單個的元素,並與文檔的其他部分一同返回

 db.order.aggregate({$unwind:"$items"}) 

$group 對數據進行分組 $group的時候必需要指定一個_id域,同時也能夠包含一些算術類型的表達式操做符

 db.order.aggregate([ 

 { 

 $unwind: "$items" 

 }, 

 { 

 $group: { 

 _id: "$cust_id", 

 qty: { 

 $sum: "$items.qty" 

 } 

 } 

 } 

]) 

關係型數據庫與MongoDB關於聚合的一些對比

關係型數據庫

Mongodb

WHERE

$match

GROUP BY

$group

HAVING

$match

SELECT

$project

ORDER BY

$sort

LIMIT

$limit

SUM()

$sum

COUNT()

$sum

join

$lookup

相關文章
相關標籤/搜索