使用PyMongo查詢MongoDB數據庫!

做者|LAKSHAY ARORA
編譯|Flin
來源|analyticsvidhyapython

介紹

隨着互聯網的普及,咱們如今正之前所未有的速度生成數據。由於執行任何類型的分析都須要咱們從數據庫中收集/查詢必要的數據,因此選擇正確的工具來查詢數據變得相當重要。所以,咱們沒法想象使用SQL來處理如此大量的數據,由於每一個查詢的成本都很高。正則表達式

這正是MongoDB的用武之地。MongoDB是一個非結構化數據庫,以文檔形式存儲數據。此外,MongoDB可以很是高效地處理大量數據,而且是使用最普遍的NoSQL數據庫,由於它提供了豐富的查詢語言以及對數據的靈活而快速的訪問。sql

在本文中,咱們將看到有關如何使用PyMongo查詢MongoDB數據庫的多個示例。此外,咱們將看到如何使用比較運算符和邏輯運算符,正則表達式以及聚合管道的基礎知識。mongodb

本文是MongoDB初學者教程(https://www.analyticsvidhya.com/blog/2020/02/mongodb-in-python-tutorial-for-beginners-using-pymongo) 的延續,其中咱們討論了非結構化數據庫,安裝步驟和MongoDB基本操做的挑戰。所以,若是你是MongoDB的初學者,我建議你先閱讀該文章。數據庫

目錄

  1. 什麼是PyMongo?express

  2. 安裝步驟json

  3. 將數據插入數據庫數組

  4. 查詢數據庫服務器

    1. 根據字段過濾
    2. 根據比較運算符進行過濾
    3. 基於邏輯運算符的過濾
    4. 經常使用表達
    5. 聚合管道
  5. 尾註框架

什麼是PyMongo?

PyMongo是一個Python庫,使咱們可以與MongoDB鏈接。此外,這是MongoDB和Python一塊兒使用的最推薦的方法。

另外,咱們選擇Python與MongoDB進行交互,由於它是數據科學中最經常使用且功能最強大的語言之一。PyMongo容許咱們使用相似於字典的語法來檢索數據。

若是你是Python的初學者,我建議你參加此免費課程:Python入門。

安裝步驟

安裝PyMongo很是簡單明瞭。在這裏,我假設你已經安裝了Python 3和MongoDB。如下命令將幫助你安裝PyMongo:

pip3 install pymongo

將數據插入數據庫

如今讓咱們進行設置,而後再使用PyMongo查詢MongoDB數據庫。首先,咱們將數據插入數據庫。如下步驟將爲你提供幫助

  1. 導入庫並鏈接到mongo客戶端

在計算機上啓動MongoDB服務器。我假設它正在localhost:27017運行文件。

讓咱們開始導入一些咱們將要使用的庫。默認狀況下,MongoDB服務器在本地計算機上的端口27017上運行。而後,咱們將使用pymongo庫鏈接到MongoDB客戶端。

而後獲取數據庫sample_db的數據庫實例。萬一它不存在,MongoDB將爲你建立一個。

# 導入所需的庫
import pymongo
import pprint
import json
import warnings
warnings.filterwarnings('ignore')

# 鏈接到mongoclient
client = pymongo.MongoClient('mongodb://localhost:27017')

# 獲取數據庫
database = client['sample_db']
  1. 從JSON文件建立集合

咱們將使用在多個城市運營的一家送餐公司的數據。此外,他們在這些城​​市設有各類配送中心,用於向其顧客發送餐單。你能夠在此處下載數據和代碼。

  1. weekly_demand

    • id:每一個文檔的惟一ID
    • week:周號
    • center_id:配送中心的惟一ID
    • meal_id:餐的惟一ID
    • checkout_price:最終價格,包括折扣,稅金和送貨費
    • base_price:餐的基本價格
    • emailer_for_promotion:發送電子郵件以促進進餐
    • homepage_featured:首頁提供的餐點
    • num_orders:(目標)訂單數
  2. meal_info

    • meal_id:餐的惟一ID
    • category:餐食類型(飲料/小吃/湯……)
    • cuisine:美食(印度/意大利/…)

而後,咱們將在sample_db數據庫中建立兩個集合:

# 建立每週需求收集
database.create_collection("weekly_demand")

# 建立餐食信息
database.create_collection("meal_info")

  1. 將數據插入集合

如今,咱們擁有的數據爲JSON格式。而後,咱們將得到集合的實例,讀取數據文件,並使用insert_many函數插入數據。

# 獲取collection weekly_demand
weekly_demand_collection = database.get_collection("weekly_demand")

# 打開weekly_demand json文件
with open("weekly_demand.json") as f:
    file_data = json.load(f)
# 將數據插入集合
weekly_demand_collection.insert_many(file_data)

# 獲取總數據點數    
weekly_demand_collection.find().count()
# >> 456548

# 獲取收藏餐 
meal_info_collection = database.get_collection("meal_info")

# 打開meat_info json文件
with open("meal_info.json") as f:
    file_data = json.load(f)
    
# 將數據插入集合
meal_info_collection.insert_many(file_data)

# 獲取總數據點數
meal_info_collection.find().count()
# >> 51

最後,在weekly_demand_collection中有456548個文檔,在餐信息集合中有51個文檔。如今,讓咱們看一下每一個集合中的一個文檔。

weekly_demand_collection

weekly_demand_collection.find_one()

膳食信息集

meal_info_collection.find_one()

如今,咱們的數據已準備就緒。讓咱們繼續查詢該數據庫。

查詢數據庫

咱們可使用帶有查找功能的PyMonfo查詢MongoDB數據庫,以獲取知足給定條件的全部結果,還可使用find_one函數,該函數將僅返回知足條件的一個結果。

如下是find和find_one的語法:

your_collection.find( {<< query >>} , { << fields>>} )

你可使用如下過濾技術查詢數據庫

  1. 根據字段過濾

例如,你有數百個字段,而你只想看到其中的幾個。你能夠經過將全部必填字段名稱都設置爲值1來實現此目的。例如,

weekly_demand_collection.find_one( {}, { "week": 1, "checkout_price" : 1})

另外一方面,若是隻想從整個文檔中丟棄一些字段,則能夠將字段名稱設置爲等於0。所以,將僅排除那些字段。請注意,你不能使用1和0的組合來獲取字段。要麼所有爲一,要麼所有爲零。

weekly_demand_collection.find_one( {}, {"num_orders" : 0, "meal_id" : 0})

  1. 過濾條件

如今,在本節中,咱們將在第一個大括號中提供一個條件,並在第二個中刪除該字段。所以,它將返回center_id等於55且meal_id等於1885的第一個文檔,而且還將丟棄字段_id和week。

weekly_demand_collection.find_one( {"center_id" : 55, "meal_id" : 1885}, {"_id" : 0, "week" : 0} )

  1. 根據比較運算符進行過濾

如下是MongoDB中的9個比較運算符。

名稱 描述
$eq 它將匹配等於指定值的值。
$gt 它將匹配大於指定值的值。
$gte 它將匹配全部大於或等於指定值的值
$in 它將匹配數組中指定的任何值
$lt 它將匹配全部小於指定值的值
$lte 它將匹配全部小於或等於指定值的值
$ne 它將匹配全部不等於指定值的值
$nin 它將不匹配數組中指定的任何值

如下是使用這些比較運算符的一些示例

  1. 等於和不等於

咱們將找到center_id等於55且homepage_featured不等於0的全部文檔。因爲咱們將使用find函數,所以它將返回該命令的遊標。此外,使用for循環遍歷查詢結果。

result_1 = weekly_demand_collection.find({
    "center_id" : { "$eq" : 55},
    "homepage_featured" : { "$ne" : 0}
})

for i in result_1:
    print(i)

  1. 在列表中和不在列表中

例如,你須要將一個元素與多個元素匹配。在這種狀況下,咱們可使用$ in 運算符,而不是屢次使用 $eq運算符。咱們將嘗試找出center_id爲24或11的全部文檔。

result_2 = weekly_demand_collection.find({
    "center_id" : { "$in" : [ 24, 11] }
})

for i in result_2:
    print(i)

而後,咱們找到全部在指定列表中不存在center_id的文檔。如下查詢將返回center_id不是24也不是11的全部文檔。

result_3 = weekly_demand_collection.find({
    "center_id" : { "$nin" : [ 24, 11] }
})

for i in result_3:
    print(i)

  1. 小於和大於

如今,讓咱們查找center_id爲55而且checkout_price大於100且小於200的全部文檔。爲此,請使用如下語法

result_4 = weekly_demand_collection.find({
    "center_id" : 55,
    "checkout_price" : { "$lt" : 200, "$gt" : 100}
})

for i in result_4:
    print(i)

  1. 基於邏輯運算符的過濾器
名稱 描述
$and 它將查詢語句與邏輯鏈接起來,AND返回同時符合這兩個條件的全部文檔。
$not 它將反轉查詢的結果,並返回與查詢表達式不匹配的文檔。
$nor 它將使用邏輯將查詢子句鏈接起來,NOR返回全部與子句不匹配的文檔。
$or 它將使用邏輯將查詢子句鏈接起來,OR返回匹配任一子句條件的全部文檔。

如下示例說明了邏輯運算符的用法-

  1. AND運算符

下面的查詢將返回center_id等於11,餐號不等於1778的文檔。AND運算符的子查詢將出如今列表中。

result_5 = weekly_demand_collection.find({
    "$and" : [{
                 "center_id" : { "$eq" : 11}
              },
              {
                   "meal_id" : { "$ne" : 1778}
              }]
})

for i in result_5:
    print(i)

  1. 或運算符
    如下查詢將返回center_id等於11或餐ID爲1207或2707的全部文檔。此外,or運算符的子查詢將位於列表內。
result_6 = weekly_demand_collection.find({
    "$or" : [{
                 "center_id" : { "$eq" : 11}
              },
              {
                   "meal_id" : { "$in" : [1207, 2707]}
              }]
})

for i in result_6:
    print(i)

  1. 用正則表達式過濾

當你有文本字段而且要搜索具備特定模式的文檔時,正則表達式很是有用。若是你想了解有關正則表達式的更多信息,我強烈建議你閱讀本文:Python正則表達式初學者教程。

它能夠與運算符 $regex 一塊兒使用,而且咱們能夠爲運算符提供值,使regex模式變爲matc。咱們將在該查詢中使用餐信息集,而後找到在美食字段中以C開頭的文檔。

result_7 = meal_info_collection.find({
    "cuisine" : { "$regex" : "^C" }
})

for i in result_7:
    print(i)

讓咱們再來看一個正則表達式的例子。咱們將查找全部類別以「 S」開頭且以「 ian 」 結尾的全部文檔。

result_8 = meal_info_collection.find({
    "$and" : [
        { 
            "category" : {
            "$regex" : "^S"
        }},
        {
            "cuisine" : {
                "$regex" : "ian$"
        }}
    ]
})

for i in result_8:
    print(i)

  1. 聚合管道

MongoDB的聚合管道提供了一個框架,能夠對數據集執行一系列數據轉換。如下是其語法:

your_collection.aggregate( [ { <stage1> }, { <stage2> },.. ] )

第一個階段將完整的文檔集做爲輸入,而後每一個隨後的階段都將上一個轉換的結果集做爲下一個階段的輸入併產生輸出。

MongoDB彙總中大約有10種轉換可用,在本文中咱們將看到$ match和$ group。咱們將在即將發表的MongoDB文章中詳細討論每一個轉換。

例如,在第一階段,咱們將匹配center_id等於11的文檔,在下一階段,它將對center_id等於11的文檔數量進行計數。請注意,咱們已經爲$count運算符分配了一個值,該值等於第二階段中的total_rows,這是咱們但願在輸出中顯示的字段的名稱。

result_9 = weekly_demand_collection.aggregate([
    ## stage 1
    {
        "$match" : 
                 {"center_id" : {"$eq" : 11 } }
    },
    ## stage 2
    {
        "$count" : "total_rows"
    }
])

for i in result_9:
    print(i)

如今,讓咱們再舉一個例子,第一個階段與以前相同,即center_id等於11,在第二個階段中,咱們要計算center_id 11的字段num_orders的平均值和center_id 11的惟一meal_ids。

result_10 = weekly_demand_collection.aggregate([
    ## stage 1
    {
        "$match" : 
                 {"center_id" : {"$eq" : 11 } }
    },
    ## stage 2
    {
        "$group" : { "_id" : 0 ,
                     "average_num_orders": { "$avg" : "$num_orders"},
                     "unique_meal_id" : {"$addToSet" : "$meal_id"}} 
    }
])

for i in result_10:
    print(i)

尾註

現在, 數據量之大使人難以置信,所以有必要找到更好的替代方法來查詢數據。總而言之,在本文中,咱們學習瞭如何使用PyMongo查詢MongoDB數據庫。此外,咱們瞭解瞭如何根據所需狀況應用各類過濾器。

若是你想了解有關查詢數據的更多信息,我建議你學習如下課程 —— 數據科學的結構化查詢語言(SQL)

在接下來的文章中,咱們將詳細討論聚合管道。

感謝閱讀!

原文連接:https://www.analyticsvidhya.com/blog/2020/08/query-a-mongodb-database-using-pymongo/

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

相關文章
相關標籤/搜索