mongodb 兩小時入門

時間 2019-12-18

原文原文鏈接

傳統的計算機應用大多使用關係型數據庫來存儲數據，好比你們可能熟悉的MySql, Sqlite等等，它的特色是數據以表格(table)的形式儲存起來的。數據庫由一張張排列整齊的表格構成，就好像一個Excel表單同樣，每一個表格會有若干列，好比一個學生信息表，可能包含學號、姓名、性別、入學年份、高考成績、籍貫等等。而表格的每一排，則是一個個學生的具體信息。在企業級應用和前互聯網時代，關係型數據庫幾乎是不二選擇。關係型數據庫的特色是有整齊劃一的組織，很方便對數據進行描述、插入、搜索。git

想象有一個傳統的網上服裝商店吧，它的主要的數據多是儲存在一張叫products的表單裏，表單可能包含這些列：商品編號(ID)、名稱(Name)、商家(brand)、主目錄(cate)、子目錄(sub-cat)、零售價(price)、是否促銷(promotion)等等。若是有一個用戶想要查找全部價格低於300元的正在促銷的鞋子的編號和名稱，則能夠執行相似於如下的SQL語句：github

SELECT ID, name FROM products WHERE cate='shoes' AND price<300 and AND promotion=true;

SQL具有了強大了的深度查詢能力，能知足各式各樣的查詢要求。而若是要對數據進行添加和刪除，成本也是很是低的。這些是SQL的優點之一，但隨着互聯網的興起以及數據形式的多樣化，四平八穩的SQL表單在一些領域漸漸顯現出它的劣勢。讓咱們經過一個例子來講明。考慮一個博客後臺系統，若是咱們用關係型數據庫爲每篇博客(article)建一個表單的話，這個表單大概會包括如下這些列：web

ID	Title	Description	Author	Content	Likes
A_1	Title1	Political Article	Joe	Content 1	12
A_2	Title2	Humorous Story	Sam	Content 2	50

這時候用SQL數據庫來存儲是很是方便的，但假如咱們要位每篇文章添加評論功能，會發現每篇文章可能要多篇評論，並且這個數目是動態變化的，並且每篇評論還包括好幾項內容：評論的人、評論的時間、以及評論內容。這時候要將這些內容都塞進上述的那個表，就顯得很困難。一般的作法是爲評論(comment)單獨建一個表：正則表達式

ID	Author	Time	Content	Article
C_1	Anna	2014-12-26 08:23	Really good articles!	A_1
C_2	David	2014-12-25 09:30	I like it!	A_1

相似地，每篇文章可能會有若干標籤(tags)。標籤自己又是一個表單：mongodb

ID	Category	Tags	Content	Article
T_1	Anna	2014-12-26 08:23	Really good articles!	A_1
T_2	David	2014-12-25 09:30	I like it!	A_2

而博客的表格則要經過foreign key跟這些相關聯的表格聯繫起來(可能還包括做者、出版社等其它表格)。這樣一來，當咱們作查詢的時候，好比說，「找出評論數很多於3的標籤爲‘政治評論’的做者爲Sam的文章」，就會涉及到複雜的跨表查詢，須要大量使用join語句。這種跨表查詢不只下降了查詢速度，並且這些語句寫起來也不簡單。數據庫

那麼，若是用MongoDB數據庫來實現，能夠如何設計數據模型呢？很簡單，像下面這樣：express

 _id: POST_ID
   title: TITLE_OF_POST, 
   description: POST_DESCRIPTION,
   author: POST_BY,
   tags: [TAG1, TAG2, TAG3],
   likes: TOTAL_LIKES, 
   comments: [    
      {
         user:'COMMENT_BY',
         message: TEXT,
         dateCreated: DATE_TIME,
      },
      {
         user:'COMMENT_BY',
         message: TEXT,
         dateCreated: DATE_TIME,
      }
   ]

在MongoDB裏，每篇博客文章以一個文檔(document)的形式保存起來，而文檔內部包含了不少項目，好比title tags等，每個項目都是key-value的形式，即有一個項目的名字，好比title，以及它的值TITLE_OF_POST。而重要的是，一個key能夠有多個values，他們用[]括起來。學習

這種「寬鬆」的數據存儲形式很是靈活，MongoDB不限制每一個key對應的values的數目。好比有的文章沒有評論，則它的值就是一個空集，徹底沒有問題；有的文章評論不少，也能夠無限制地插入。更靈活的是，MongoDB不要求同一個集合(collection，至關於SQL的table)裏面的不一樣document有相同的key，好比除了上述這種文檔組織，有的文檔所表明的文章可能沒有likes這個項目，再好比有的文章可能有更多的項目，好比可能還有dislikes等等。這些不一樣的文檔均可以靈活地存儲在同一個集合下，並且查詢起來也異常簡單，由於都在一個文檔裏，不用進行各類跨文檔查詢。而這種MongoDB式的存儲也方便了數據的維護，對於一篇博客文章來講，全部的相關數據都在這個document裏面，不用去考慮一個數據操做須要involve多少個表格。測試

固然，除了上述的優勢，MongoDB還有很多別的優點，好比MongoDB的數據是用JSON(Javascript Object Notation)存儲的(就是上面的這種key-value的形式)，而幾乎全部的web應用都是基於Javascript的。所以，存儲的數據和應用的數據的格式是高度一致的，不需通過轉換。更多的優勢能夠查看：[2]。網站

2. 關於這篇文章

這個極簡教程，或者說筆記，並非一個覆蓋MongoDB方方面面的教程。所謂極簡的意思，就是隻選取那些最重要、最經常使用的內容進行基於實例的介紹，從而讓讀者可以在最短的時間內快速上手，而且能順利地進行後續的縱深的學習。

具體地說，這個教程的特色是：

不求全面，只求實用。只覆蓋最核心的部分；
以大量例子爲導向；
一邊閱讀一邊動手操做的話，大約只須要2小時的時間；

閱讀這篇文章不須要有特別的基礎，但最好知道數據庫的基本概念，若是自己熟悉SQL那就更好啦。

3. 安裝與環境

MongoDB能夠在Windows、Linux、Mac OS X等主流平臺運行，並且下載和安裝很是簡單，很是友好。這篇文檔的例子採用MongoDB 2.6版本，均在OS X測試過，有充足的理由相信，在其它平臺也能順利運行。

4. 建立集合和刪除集合

在上一節執行完步驟6後，你會看到命令行裏顯示：`connecting to: test`，這裏的`test`是默認的數據庫。這裏咱們能夠新建一個數據庫。在命令行裏打入：

use tutorial

這樣就新建了一個叫作tutorial的數據庫。你能夠執行

show databases

來顯示當前的數據庫。不過這時候因爲咱們的新數據庫是空的，因此會顯示相似這樣的：

admin  (empty)
local  0.078GB

咱們試着往咱們的數據庫裏添加一個集合(collection)，MongoDB裏的集合和SQL裏面的表格是相似的：

db.createCollection('author')

順利的話會顯示：

{ "ok" : 1 }

表示建立成功。

你能夠再回頭執行：

show databases

這時候咱們的tutorial集合已經位列其中。你能夠再執行

show collections

能夠看到建立的集合author也在其中。

咱們暫時不須要author這個集合，因此咱們能夠經過執行：

db.author.drop()

來將其刪除。這時候你再執行show collections，就再也看不到咱們的author了。

這一節要記住的點主要只有一個：集合(collection)相似於SQL的表格(table)，相似於Excel的一個個表格。

5. 插入

想象一個精簡版的「豆瓣電影」。咱們須要建立一個數據庫，來存儲每部電影的信息，電影的信息包括：

電影名字
導演
主演(可能多個)
類型標籤(可能多個)
上映日期
喜歡人數
不喜歡人數
用戶評論(可能多個)

顯然咱們須要先建立一個叫電影的集合：

db.createCollection('movie')

而後，咱們就能夠插入數據了：

db.movie.insert(
 {
   title: 'Forrest Gump', 
   directed_by: 'Robert Zemeckis',
   stars: ['Tom Hanks', 'Robin Wright', 'Gary Sinise'],
   tags: ['drama', 'romance'],
   debut: new Date(1994,7,6,0,0),
   likes: 864367,
   dislikes: 30127,
   comments: [    
      {
         user:'user1',
         message: 'My first comment',
         dateCreated: new Date(2013,11,10,2,35),
         like: 0 
      },
      {
         user:'user2',
         message: 'My first comment too!',
         dateCreated: new Date(2013,11,11,6,20),
         like: 0 
      }
   ]
}
)

請注意，這裏插入數據以前，咱們並不須要先聲明movie這個集合裏面有哪些項目。咱們直接插入就能夠了~這一點和SQL不同，SQL必須先聲明一個table裏面有哪些列，而MongoDB不須要。

把上面的例子複製進命令行應該能夠順利運行，但我強烈建議你手動打一下，或者輸入一部你本身喜歡的電影。insert操做有幾點須要注意：

1. 不一樣key-value須要用逗號隔開，而key:value中間是用冒號；
2. 若是一個key有多個value，value要用[]。哪怕當前只有一個value，也加上[]以備後續的添加；
3. 整個「數據塊」要用{}括起來；

若是你在insert以後看到WriteResult({ "nInserted" : 1 })，說明寫入成功。

這個時候你能夠用查詢的方式來返回數據庫中的數據：

db.movie.find().pretty()

這裏find()裏面是空的，說明咱們不作限制和篩選，相似於SQL沒有WHERE語句同樣。而pretty()輸出的是經格式美化後的數據，你能夠本身試試沒有pretty()會怎麼樣。

仔細觀察find()的結果，你會發現多了一個叫'_id'的東西，這是數據庫自動建立的一個ID號，在同一個數據庫裏，每一個文檔的ID號都是不一樣的。

咱們也能夠同時輸入多個數據：

db.movie.insert([
 {
   title: 'Fight Club', 
   directed_by: 'David Fincher',
   stars: ['Brad Pitt', 'Edward Norton', 'Helena Bonham Carter'],
   tags: 'drama',
   debut: new Date(1999,10,15,0,0),
   likes: 224360,
   dislikes: 40127,
   comments: [    
      {
         user:'user3',
         message: 'My first comment',
         dateCreated: new Date(2008,09,13,2,35),
         like: 0 
      },
      {
         user:'user2',
         message: 'My first comment too!',
         dateCreated: new Date(2003,10,11,6,20),
         like: 14 
      },
      {
         user:'user7',
         message: 'Good Movie!',
         dateCreated: new Date(2009,10,11,6,20),
         like: 2
      }
   ]
},
{
   title: 'Seven', 
   directed_by: 'David Fincher',
   stars: ['Morgan Freeman', 'Brad Pitt',  'Kevin Spacey'],
   tags: ['drama','mystery','thiller'],
   debut: new Date(1995,9,22,0,0),
   likes: 134370,
   dislikes: 1037,
   comments: [    
      {
         user:'user3',
         message: 'Love Kevin Spacey',
         dateCreated: new Date(2002,09,13,2,35),
         like: 0 
      },
      {
         user:'user2',
         message: 'Good works!',
         dateCreated: new Date(2013,10,21,6,20),
         like: 14 
      },
      {
         user:'user7',
         message: 'Good Movie!',
         dateCreated: new Date(2009,10,11,6,20),
         like: 2
      }
   ]
}
])

順利的話會顯示：

BulkWriteResult({
	"writeErrors" : [ ],
	"writeConcernErrors" : [ ],
	"nInserted" : 2,
	"nUpserted" : 0,
	"nMatched" : 0,
	"nModified" : 0,
	"nRemoved" : 0,
	"upserted" : [ ]

表面咱們成功地插入了兩個數據。注意批量插入的格式是這樣的：db.movie.insert([{ITEM1},{ITEM2}])。幾部電影的外面須要用[]括起來。

請注意，雖然collection的插入不須要先聲明，但表達相贊成思的key，名字要同樣，好比，若是咱們在一個文檔裏用directed_by來表示導演，則在其它文檔也要保持一樣的名字(而不是director之類的)。不一樣的名字不是不能夠，技術上徹底可行，但會給查詢和更新帶來困難。

好了，到這裏，咱們就有了一個叫tutorial的數據庫，裏面有一個叫movie的集合，而movie裏面有三個記錄。接下來咱們就能夠對其進行查詢了。

6. 查詢

在上一節咱們已經接觸到最簡單的查詢db.movie.find().pretty()。MongoDB支持各類各樣的深度查詢功能。先來一個最簡單的例子，找出大衛芬奇(David Fincher)導演的全部電影：

db.movie.find({'directed_by':'David Fincher'}).pretty()

將返回《搏擊俱樂部》和《七宗罪》兩部電影。這種搜索和SQL的WHERE語句是很類似的。

也能夠設置多個條件。好比找出大衛芬奇導演的, 摩根弗里曼主演的電影：

db.movie.find({'directed_by':'David Fincher', 'stars':'Morgan Freeman'}).pretty()

這裏兩個條件之間，是AND的關係，只有同時知足兩個條件的電影纔會被輸出。同理，能夠設置多個的條件，不贅述。

條件之間也能夠是或的關係，好比找出羅賓懷特或摩根弗里曼主演的電影：

db.movie.find(
{
  $or: 
     [  {'stars':'Robin Wright'}, 
        {'stars':'Morgan Freeman'}
     ]
}).pretty()

注意這裏面稍顯複雜的各類括號。

還能夠設置一個範圍的搜索，好比找出50萬人以上讚的電影：

db.movie.find({'likes':{$gt:500000}}).pretty()

一樣要注意略複雜的括號。注意，在這些查詢裏，key的單引號都是可選的，也就是說，上述語句也能夠寫成：

db.movie.find({likes:{$gt:500000}}).pretty()

相似地，少於二十萬人讚的電影：

db.movie.find({likes:{$lt:200000}}).pretty()

相似的運算符還有：$let:小於或等於；$get:大於或等於；$ne:不等於。

注意，對於包含多個值的key，一樣能夠用find來查詢。好比：

db.movie.find({'tags':'romance'})

將返回《阿甘正傳》，雖然其標籤既有romance，又有drama，但只要符合一個就能夠了。

若是你確切地知道返回的結果只有一個，也能夠用findOne:

db.movie.findOne({'title':'Forrest Gump'})

若是有多個結果，則會按磁盤存儲順序返回第一個。請注意，findOne()自帶pretty模式，因此不能再加pretty()，將報錯。

若是結果不少而你只想顯示其中一部分，能夠用limit()和skip()，前者指明輸出的個數，後者指明從第二個結果開始數。好比：

db.movie.find().limit(2).skip(1).pretty()

則跳過第一部，從第二部開始選取兩部電影。

7. 局部查詢

第五節的時候咱們講了find的用法，但對於符合條件的條目，咱們都是返回整個JSON文件的。這相似於SQL裏面的SELECT *。有的時候，咱們須要的，僅僅是部分數據，這個時候，find的局部查詢的功能就派上用場了。先來看一個例子，返回tags爲drama的電影的名字和首映日期。

db.movie.find({'tags':'drama'},{'debut':1,'title':1}).pretty()

數據庫將返回：

{
    "_id" : ObjectId("549cfb42f685c085f1dd47d4"),
    "title" : "Forrest Gump",
    "debut" : ISODate("1994-08-05T16:00:00Z")
}
{
    "_id" : ObjectId("549cff96f685c085f1dd47d6"),
    "title" : "Fight Club",
    "debut" : ISODate("1999-11-14T16:00:00Z")
}
{
    "_id" : ObjectId("549cff96f685c085f1dd47d7"),
    "title" : "Seven",
    "debut" : ISODate("1995-10-21T16:00:00Z")
}

這裏find的第二個參數是用來控制輸出的，1表示要返回，而0則表示不返回。默認值是0，但_id是例外，所以若是你不想輸出_id，須要顯式地聲明：

db.movie.find({'tags':'drama'},{'debut':1,'title':1,'_id':0}).pretty()

8. 更新

不少狀況下你須要更新你的數據庫，好比有人對某部電影點了個贊，那麼你須要更新相應的數據庫。好比有人對《七宗罪》點了個贊，而它原本的讚的個數是134370，那麼你須要更新到134371。能夠這樣操做：

db.movie.update({title:'Seven'}, {$set:{likes:134371}})

第一個大括號裏代表要選取的對象，第二個代表要改動的數據。請注意上述的操做至關不現實，由於你首先要知道以前的數字是多少，而後加一，但一般你不讀取數據庫的話，是不會知道這個數(134370)的。MongoDB提供了一種簡便的方法，能夠對現有條目進行增量操做。假設又有人對《七宗罪》點了兩個贊，則能夠：

db.movie.update({title:'Seven'}, {$inc:{likes:2}})

若是你查詢的話，會發現點贊數變爲134373了，這裏用的是$inc。除了增量更新，MongoDB還提供了不少靈活的更新選項，具體能夠看：http://docs.mongodb.org/manual/reference/operator/update-field/ 。

注意若是有多部符合要求的電影。則默認只會更新第一個。若是要多個同時更新，要設置{multi:true}，像下面這樣：

db.movie.update({}, {$inc:{likes:10}},{multi:true})

全部電影的贊數都多了10.

注意，以上的更新操做會替換掉原來的值，因此若是你是想在原有的值得基礎上增長一個值的話，則應該用$push，好比，爲《七宗罪》添加一個popular的tags。

db.movie.update({'title':'Seven'}, {$push:{'tags':'popular'}})

你會發現《七宗罪》如今有四個標籤：

"tags" : [
		"drama",
		"mystery",
		"thiller",
		"popular"
	],

9. 刪除

刪除的句法和find很類似，好比，要刪除標籤爲romance的電影，則：

db.movie.remove({'tags':'romance'})

考慮到咱們數據庫條目異常稀少，就不建議你執行這條命令了~

注意，上面的例子會刪除全部標籤包含romance的電影。若是你只想刪除第一個，則

db.movie.remove({'tags':'romance'},1)

若是不加任何限制：

db.movie.remove()

會刪除movie這個集合下的全部文檔。

10. 索引和排序

爲文檔中的一些key加上索引(index)能夠加快搜索速度。這一點不難理解，假如沒有沒有索引，咱們要查找名字爲Seven的電影，就必須在全部文檔裏逐個搜索。而若是對名字這個key加上索引值，則電影名這個字符串和數字創建了映射，這樣在搜索的時候就會快不少。排序的時候也是如此，不贅述。MongoDB裏面爲某個key加上索引的方式很簡單，好比咱們要對導演這個key加索引，則能夠：

db.movie.ensureIndex({directed_by:1})

這裏的1是升序索引，若是要降序索引，用-1。

MongoDB支持對輸出進行排序，好比按名字排序：

db.movie.find().sort({'title':1}).pretty()

一樣地，1是升序，-1是降序。默認是1。

db.movie.getIndexes()

將返回全部索引，包括其名字。

而

db.movie.dropIndex('index_name')

將刪除對應的索引。

11. 聚合

MongoDB支持相似於SQL裏面的GROUP BY操做。好比當有一張學生成績的明細表時，咱們能夠找出每一個分數段的學生各有多少。爲了實現這個操做，咱們須要稍加改動咱們的數據庫。執行如下三條命令：

db.movie.update({title:'Seven'},{$set:{grade:1}})
db.movie.update({title:'Forrest Gump'},{$set:{grade:1}})
db.movie.update({title:'Fight Club'},{$set:{grade:2}})

這幾條是給每部電影加一個虛擬的分級，前兩部是歸類是一級，後一部是二級。

這裏你也能夠看到MongoDB的強大之處：能夠動態地後續添加各類新項目。

咱們先經過聚合來找出總共有幾種級別。

db.movie.aggregate([{$group:{_id:'$grade'}}])

輸出：

{ "_id" : 2 }
{ "_id" : 1 }

注意這裏的2和1是指級別，而不是每一個級別的電影數。這個例子看得清楚些：

db.movie.aggregate([{$group:{_id:'$directed_by'}}])

這裏按照導演名字進行聚合。輸出：

{ "_id" : "David Fincher" }
{ "_id" : "Robert Zemeckis" }

接着咱們要找出，每一個導演的電影數分別有多少：

db.movie.aggregate([{$group:{_id:'$directed_by',num_movie:{$sum:1}}}])

將會輸出：

{ "_id" : "David Fincher", "num_movie" : 2 }
{ "_id" : "Robert Zemeckis", "num_movie" : 1 }

注意$sum後面的1表示只是把電影數加起來，但咱們也能夠統計別的數據，好比兩位導演誰的贊比較多：

db.movie.aggregate([{$group:{_id:'$directed_by',num_likes:{$sum:'$likes'}}}])

輸出：

{ "_id" : "David Fincher", "num_likes" : 358753 }
{ "_id" : "Robert Zemeckis", "num_likes" : 864377 }

注意這些數據都純屬虛構啊！

除了$sum，還有其它一些操做。好比：

db.movie.aggregate([{$group:{_id:'$directed_by',num_movie:{$avg:'$likes'}}}])

統計平均的贊。

db.movie.aggregate([{$group:{_id:'$directed_by',num_movie:{$first:'$likes'}}}]

返回每一個導演的電影中的第一部的贊數。

其它各類操做能夠參考：http://docs.mongodb.org/manual/reference/operator/aggregation/group/ 。

12. All or Nothing?

MongoDB支持單個文檔內的原子化操做(atomic operation)，這是說，能夠將多條關於同一個文檔的指令放到一塊兒，他們要麼一塊兒執行，要麼都不執行。而不會執行到一半。有些場合須要確保多條執行一塊兒順次執行。好比一個場景：一個電商網站，用戶查詢某種商品的剩餘數量，以及用戶購買該種商品，這兩個操做，必須放在一塊兒執行。否則的話，假定咱們先執行剩餘數量的查詢，這是假定爲1，用戶接着購買，但假如這兩個操做之間還加入了其它操做，好比另外一個用戶搶先購買了，那麼原先購買用戶的購買的行爲就會形成數據庫的錯誤，由於實際上這種商品以及沒有存貨了。但由於查詢剩餘數量和購買不是在一個「原子化操做」以內，所以會發生這樣的錯誤[2]。

MongoDB提供了findAndModify的方法來確保atomic operation。好比這樣的：

db.movie.findAndModify(
			{
			query:{'title':'Forrest Gump'},
			update:{$inc:{likes:10}}
			}
		      )

query是查找出匹配的文檔，和find是同樣的，而update則是更新likes這個項目。注意因爲MongoDB只支持單個文檔的atomic operation，所以若是query出多於一個文檔，則只會對第一個文檔進行操做。

findAndModify還支持更多的操做，具體見：http://docs.mongodb.org/manual/reference/command/findAndModify/。

13. 文本搜索

除了前面介紹的各類深度查詢功能，MongoDB還支持文本搜索。對文本搜索以前，咱們須要先對要搜索的key創建一個text索引。假定咱們要對標題進行文本搜索，咱們能夠先這樣：

db.movie.ensureIndex({title:'text'})

接着咱們就能夠對標題進行文本搜索了，好比，查找帶有"Gump"的標題：

db.movie.find({$text:{$search:"Gump"}}).pretty()

注意text和search前面的$符號。

這個例子裏，文本搜索做用不是很是明顯。但假設咱們要搜索的key是一個長長的文檔，這種text search的方便性就顯現出來了。MongoDB目前支持15種語言的文本搜索。

14. 正則表達式

MongoDB還支持基於正則表達式的查詢。若是不知道正則表達式是什麼，能夠參考Wikipedia。這裏簡單舉幾個例子。好比，查找標題以b結尾的電影信息：

db.movie.find({title:{$regex:'.*b$'}}).pretty()

也能夠寫成：

db.movie.find({title:/.*b$/}).pretty()

查找含有'Fight'標題的電影：

db.movie.find({title:/Fight/}).pretty()

注意以上匹配都是區分大小寫的，若是你要讓其不區分大小寫，則能夠：

db.movie.find({title:{$regex:'fight.*b',$options:'$i'}}).pretty()

$i是insensitive的意思。這樣的話，即便是小寫的fight，也能搜到了。

15. 後記

至此，MongoDB的最基本的內容就介紹得差很少了。若是有什麼遺漏的之後我會補上來。若是你一路看到底徹底了這個入門教程，恭喜你，你必定是一個有毅力的人。

把這個文檔過一遍，不會讓你變成一個MongoDB的專家(若是會那就太奇怪了)。但若是它能或多或少減小你上手的時間，或者讓你意識到「咦，MongoDB其實沒那麼複雜」，那麼這個教程的目的也就達到啦。

這個文檔是匆忙寫就的，出錯簡直是必定的。若是您發現了任何錯誤或者有關於本文的任何建議，麻煩發郵件給我（stevenslxie at gmail.com）或者在GitHub上直接交流，不勝感激。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。