MongoDB是一款爲web應用程序和互聯網基礎設施設計的數據庫管理系統。沒錯MongoDB就是數據庫,是NoSQL類型的數據庫。java
(1)MongoDB提出的是文檔、集合的概念,使用BSON(類JSON)做爲其數據模型結構,其結構是面向對象的而不是二維表,存儲一個用戶在MongoDB中是這樣子的。mysql
{ username:'123', password:'123' }
使用這樣的數據模型,使得MongoDB能在生產環境中提供高讀寫的能力,吞吐量較於mysql等SQL數據庫大大加強。linux
(2)易伸縮,自動故障轉移。易伸縮指的是提供了分片能力,能對數據集進行分片,數據的存儲壓力分攤給多臺服務器。自動故障轉移是副本集的概念,MongoDB能檢測主節點是否存活,當失活時能自動提高從節點爲主節點,達到故障轉移。ios
(3)數據模型由於是面向對象的,因此能夠表示豐富的、有層級的數據結構,好比博客系統中能把「評論」直接懟到「文章「的文檔中,而沒必要像myqsl同樣建立三張表來描述這樣的關係。git
(1)文檔數據類型
SQL類型的數據庫是正規化的,能夠經過主鍵或者外鍵的約束保證數據的完整性與惟一性,因此SQL類型的數據庫經常使用於對數據完整性較高的系統。MongoDB在這一方面是不如SQL類型的數據庫,且MongoDB沒有固定的Schema,正由於MongoDB少了一些這樣的約束條件,可讓數據的存儲數據結構更靈活,存儲速度更加快。web
(2)即時查詢能力
MongoDB保留了關係型數據庫即時查詢的能力,保留了索引(底層是基於B tree)的能力。這一點汲取了關係型數據庫的優勢,相比於同類型的NoSQL redis 並無上述的能力。redis
(3)複製能力
MongoDB自身提供了副本集能將數據分佈在多臺機器上實現冗餘,目的是能夠提供自動故障轉移、擴展讀能力。spring
(4)速度與持久性sql
MongoDB的驅動實現一個寫入語義 fire and forget ,即經過驅動調用寫入時,能夠當即獲得返回獲得成功的結果(即便是報錯),這樣讓寫入的速度更加快,固然會有必定的不安全性,徹底依賴網絡。mongodb
MongoDB提供了Journaling日誌的概念,實際上像mysql的bin-log日誌,當須要插入的時候會先往日誌裏面寫入記錄,再完成實際的數據操做,這樣若是出現停電,進程忽然中斷的狀況,能夠保障數據不會錯誤,能夠經過修復功能讀取Journaling日誌進行修復。
(5)數據擴展
MongoDB使用分片技術對數據進行擴展,MongoDB能自動分片、自動轉移分片裏面的數據塊,讓每個服務器裏面存儲的數據都是同樣大小。
MongoDB核心服務器主要是經過mongod程序啓動的,並且在啓動時不需對MongoDB使用的內存進行配置,由於其設計哲學是內存管理最好是交給操做系統,缺乏內存配置是MongoDB的設計亮點,另外,還可經過mongos路由服務器使用分片功能。
MongoDB的主要客戶端是能夠交互的js shell 經過mongo啓動,使用js shell能使用js直接與MongoDB進行交流,像使用sql語句查詢mysql數據同樣使用js語法查詢MongoDB的數據,另外還提供了各類語言的驅動包,方便各類語言的接入。
mongodump和mongorestore,備份和恢復數據庫的標準工具。輸出BSON格式,遷移數據庫。
mongoexport和mongoimport,用來導入導出JSON、CSV和TSV數據,數據須要支持多格式時有用。mongoimport還能用與大數據集的初始導入,可是在導入前順便還要注意一下,爲了能充分利用好mongoDB一般須要對數據模型作一些調整。
mongosniff,網絡嗅探工具,用來觀察發送到數據庫的操做。基本就是把網絡上傳輸的BSON轉換爲易於人們閱讀的shell語句。
所以,能夠總結獲得,MongoDB結合鍵值存儲和關係數據庫的最好特性。由於簡單,因此數據極快,並且相對容易伸縮還提供複雜查詢機制的數據庫。MongoDB須要跑在64位的服務器上面,且最好單獨部署,由於是數據庫,因此也須要對其進行熱備、冷備處理。
由於本篇文章不是API手冊,全部這裏對shell的使用也是基礎的介紹什麼功能能夠用什麼語句,主要是爲了展現使用MongoDB shell的方便性,若是須要知道具體的MongoDB shell語法能夠查閱官方文檔。
use dba
建立數據庫並非必須的操做,數據庫與集合只有在第一次插入文檔時纔會被建立,與對數據的動態處理方式是一致的。簡化並加速開發過程,並且有利於動態分配命名空間。若是擔憂數據庫或集合被意外建立,能夠開啓嚴格模式。
db.users.insert({username:"smith"}) db.users.save({username:"smith"})
區別: 若新增的數據中存在主鍵 ,insert() 會提示錯誤,而save() 則更改原來的內容爲新內容。如:
已存在數據:{_id : 1, " name " : " n1 " },再次進行插入操做時,insert({_id : 1, " name " : " n2 " }) 會報主鍵重複的錯誤提示,save({ _id : 1, " name " : " n2 " }) 會把 n1 修改成 n2 。
相同點: 若新增的數據中沒有主鍵時,會增長一條記錄。
已存在數據:{ _id : 1, " name " : " n1 " },再次進行插入操做時,insert({ " name " : " n2 " }) 插入的數據由於沒有主鍵,因此會增長一條數據,save({ " name " : " n2 " }) 增長一條數據。
db.users.find() db.users.count()
db.users.update({username:"smith"},{$set:{country:"Canada"}}) //把用戶名爲smith的用戶的國家改爲Canada
db.users.update({username:"smith"},{$unset:{country:1}}) //把用戶名爲smith的用戶的國家字段給移除
db.users.update({username:"jones"},{$set:{favorites:{movies:["casablance","rocky"]}}}) //這裏主要體現多值修改,在favorties字段中添加多個值
db.users.update({"favorites.movies":"casablance"},{$addToSet:{favorites.movies:"the maltese"}},false,true) //多項更新
db.foo.remove() //刪除全部數據 db.foo.remove({favorties.cities:"cheyene"}) //根據條件進行刪除 db.drop() //刪除整個集合
db.numbers.ensureIndex({num:1}) //建立一個升序索引 db.numbers.getIndexes() //獲取所有索引
show dbs //查詢全部數據庫 show collections //顯示全部表 db.stats() //顯示數據庫狀態信息 db.numbers.stats() //顯示集合表狀態信息 db,shutdownServer() //中止數據庫 db.help() //獲取數據庫操做命令 db.foo.help() //獲取表操做命令 tab 鍵 //能自動幫咱們補全命令
以上的命令只是簡單實例,假設若是你以前沒有學習過任何數據庫語法,同時開始學sql查詢語法和MongoDB 查詢語法,你會發現哪個更簡單呢?若是你使用的是java驅動去操做MongoDB,你會發現任何的查詢都像Hibernate提供出來的查詢方式同樣,只要構建好一個查詢條件對象,便能輕鬆查詢(接下來會給出示例),博主以前熟悉ES6,因此入手MongoDB js shell完成沒問題,也正由於這樣簡潔,完善的查詢機制,深深的愛上了MongoDB。
使用java驅動連接MongoDB是一件很是簡單的事情,簡單的引用,簡單的作增刪改查。在使用完java驅動後我才發現spring 對MongoDB 的封裝還不如官方自身提供出來的東西好用,下面簡單的展現一下使用。
<dependency> <groupId>org.mongodbgroupId> <artifactId>mongodb-driver-syncartifactId> <version>3.8.0-beta3version> dependency>
MongoClient client = MongoClients.create(「mongodb://10.201.76.94:27017」);
public long count() { MongoClient client = this.getClient(); MongoCollection collections= client.getDatabase("mongodb_db_name").getCollection("mongodb_collection_name"); return collections.count(); }
public List find(Document params,Bson sort,int skip,int limit) { MongoClient client = this.getClient(); MongoCollection collections= client.getDatabase("mongodb_db_name").getCollection("mongodb_collection_name"); List list = new ArrayList(Integer.valueOf(config.getPro("sync_limit"))); collections.find(params).sort(sort).skip(skip).limit(limit).forEach(new Block() { @Override public void apply(Document document) { list.add(document); } }); return list; }
這裏只舉例了簡單的連接與簡單的MongoDB操做,可見其操做的容易性。使用驅動時是基於TCP套接字與MongoDB進行通訊的,若是查詢結果較多,剛好沒法所有放進第一服務器中,將會向服務器發送一個getmore指令獲取下一批查詢結果。
插入數據到服務器時間,不會等待服務器的響應,驅動會假設寫入是成功的,實際是使用客戶端生成對象id,可是該行爲能夠經過配置配置,能夠經過安全模式開啓,安全模式能夠校驗服務器端插入的錯誤。
要清楚瞭解MongoDB的基本數據單元。在關係型數據庫中有帶列和行的數據表。而MongoDB數據的基本單元是BSON文檔,在鍵值中有指向不定類型值的鍵,MongoDB擁有即時查詢,但不支持聯結操做,簡單的鍵值存儲只能根據單個鍵來獲取值,不支持事務,但支持多種原子更新操做。
如讀寫比是怎樣的,須要何種查詢,數據是如何更新的,會不會存在什麼併發問題,數據結構化的程度是要求高仍是低。系統自己的需求決定mysql仍是MongoDB。
內嵌與引用 :當子對象老是出如今父對象的上下文中時,使用內嵌文檔;不然將子對象單獨存一個集合。
一對多的關係
:在「多」的集合關係中添加id指向依賴的id。
多對多
:在其中一種對應關係中使用對象數組指向另一個對象。
樹
:具化路徑,在樹中的每一個節點都包含一個path字段,該字段具體保存了每一個節點祖先的id。
動態屬性
:能夠爲不一樣的動態屬性添加索引,若是須要將屬性圈在一個範圍,那麼能夠經過key-value的方式,而後在統一的key上面加索引。
關於事務
:若是須要事務支持,那麼只能選擇另外一種數據庫,或者提供補償性事務來解決事務的問題。
在關於schema 的設計中要注意一些原則,好比:
(1)關注數據庫的概念
數據庫是集合的邏輯與物理分組,MongoDB沒有提供建立數據庫的語法,只有在插入集合時,數據庫纔開始創建。建立數據庫後會在磁盤分配一組數據文件,全部集合、索引和數據庫的其餘元數據都保存在這些文件中,查閱數據庫使用磁盤狀態可經過。
db.stats()
(2)關注集合概念
集合是結構上或概念上類似得文檔的容器,集合的名稱能夠包含數字、字母或 . 符號,但必須以字母或數字開頭,徹底。
限定集合名不能超過128個字符,實際上 . 符號在集合中頗有用,能提供某種虛擬命名空間,這是一種組織上的原則,和其餘集合是一視同仁的。在集合中可使用。
system.namespaces //查詢當前數據庫中定義的全部命名空間 system.indexes //存儲當前數據庫的全部索引定義
(3)關注文檔
其次是鍵值,在MongoDB裏面全部的字符串都是UTF-8類型。數字類型包括double、int、long。日期類型都是UTC格式,因此在MongoDB裏面看到的時間會比北京時間慢8小時。整個文檔大小會限制在16m之內,由於這樣能夠防止建立難看的數據類型,且小文檔能夠提高性能,批量插入文檔理想數字範圍是10~200,大小不能超過16MB。
(1)索引能顯著減小獲取文檔的所需工做量,具體的對比能夠經過 .explain()方法進行對比
(2)解析查詢時MongoDB經過最優計劃選擇一個索引進行查詢,當沒有最適合索引時,會先不一樣的使用各個索引進行查詢,最終選出一個最優索引作查詢
(3)若是有一個a-b的複合索引,那麼僅針對a的索引是冗餘的
(4)複合索引裏的鍵的順序是很重要的
(1)單鍵索引
(2)複合索引
(3)惟一性索引
(4)稀疏索引
如索引的字段會出現null的值,或是大量文檔都不包含被索引的鍵。
若是數據集很大時,構建索引將會花費很長的時間,且會影響程序性能,可經過
db.currentOp() //查看索引的構建時間
當使用 mongorestore 時會從新構建索引。當曾經執行過大規模的刪除時,可以使用
db.values.reIndex()
對索引進行壓縮,重建。
(1)查閱慢查詢日誌
grep -E '([0-9])+ms' mongod.log //使用grep 命令 識別命令信息 db.setProfillingLevel(2) //使用解刨器,將記錄每次的讀寫到日誌 db.setProfillingLevel(1) //只記錄慢(100ms)操做
(2)分析慢查詢
db.values.find({}).sort({close:-1}).limit(1).explain() scanOrder 字段代表沒有使用索引
cursor當沒有索引時,用的是BasicCursor,當使用索引時使用的是BtreeCursor
n 表示須要返回的結果集
nscanned表示須要遍歷的文檔數 indexBounds 表示索引邊界
注意新版本的MongoDB 的explain方法是須要參數的,否則只顯示普通的信息。
本節一樣主要簡單呈現MongoDB副本集搭建的簡易性,與副本集的強壯性,監控容易性
提供主從複製能力,熱備能力,故障轉移能力
rs.initiate() rs.add("localhost:40001") rs.add("localhost:40002",{arbiterOnly:true})
db.isMasrter() rs.status()
實際上MongoDB對副本集的操做跟mysql主從操做是差很少的,先看一下mysql的主從數據流動過程
主binlog -> 從relay.log -> 從bin.log -> 從數據庫
而MongoDB主要依賴的日誌文件是oplog
主oplog -> 從oplog
寫操做先被記錄下來,添加到主節點的oplog裏。與此同時,全部從結點複製oplog。首先,查看本身oplog裏最後一條的時間戳;其次,查詢主節點oplog裏全部大於此時間戳的條目;最後,把那些條目添加到本身的oplog裏並應用到本身的庫裏。從節點使用長輪詢當即應用來自主結點oplog的新條目。
當遇到如下狀況,從節點會中止複製
local數據庫保存了全部副本集元素據和oplog日誌
可使用如下命令查看複製狀況
db.oplog.rs.findOne()
每一個副本集成員每秒鐘ping一次其餘全部成員,能夠經過rs.status()看到節點上次的心跳檢測時間戳和健康情況。
這個點不必過多描述,可是有一個特殊場景,若是從節點和仲裁節點都被殺了,只剩下主節點,他會把本身降級成爲從節點。
若是主節點的數據尚未寫到從庫,那麼數據不能算提交,當該主節點變成從節點時,便會觸發回滾,那些沒寫到從庫的數據將會被刪除,能夠經過rollback子目錄中的BSON文件恢復回滾的內容。
(1)使用單節點連接
只能連接到主節點,若是連接到從節點的話,會被拒絕寫入操做,可是若是沒有使用安全模式,由於mongo的fire and forget 特性,會把拒絕寫入的異常給吃掉。
(2)使用副本集方式連接
能根據寫入的狀況自動進行故障轉移,可是當副本集進行新的選舉時,仍是會出現故障,若是不使用安全模式,依舊會出現寫不進去,但現實成功的狀況。
(3)寫關注
可使用寫關注來關注數據是否已經被寫入MongoDB的庫中,使用寫關注會消耗性能,須要在速度和持久性之間作出權衡。
分片是數據庫切分的一個概念實現,這裏也是簡單總結爲何要使用分片以及分片的原理,操做。
當數據量過大,索引和工做數據集佔用的內存就會愈來愈多,因此須要經過分片負載來解決這個問題
(1)分片組件
分片:每一個分片都是一個副本集
mongos路由器:是一個路由器,將讀寫請求指引到合適的分片上
配置服務器config:持久化分片集羣的元數據,包括:全局集羣配置;每一個數據庫、集合和特定範圍數據位置;一份變動記錄,保存了數據在分片之間進行遷移的歷史信息。配置服務器之間不是副本集形式存在,mongos向配置服務器提交信息時是兩階段提交,保證配置服務器之間的一致性。
(2)分片的核心操做
分片一個集合:分片是根據一個屬性的範圍進行劃分的,MongoDB使用所謂的分片鍵讓每一個文檔在這些範圍裏找到本身的位置
塊:是位於一個分片中的一段連續的分片鍵範圍,能夠理解爲若干個塊組成分片,分片組成MongoDB的所有數據
(3)拆分與遷移
塊的拆分:初始化時只有一個塊,達到最大塊尺寸64MB或100000個文檔就會觸發塊的拆分。把原來的範圍一分爲二,這樣就有了兩個塊,每一個塊都有相同數量的文檔。
遷移:當分片中的數據大小不一時會產生遷移的動做,好比分片A的數據比較多,會將分片A裏面的一些塊轉移到分片B裏面去。分片集羣經過在分片中移動塊來實現均衡,是由名爲均衡器的軟件進程管理的,任務是確保數據在各個分片中保持均勻分佈,當集羣中擁有塊最多的分片與擁有塊最少分片的塊差大於8時,均衡器就會發起一次均衡處理。
啓動兩個副本集、三個配置服務器、一個mongos進程
配置分片
sh.help() //查看分片相關幫助 sh.addShard() //添加分片 db,getSiblingDB("config").shards.find() //查看分片列表 sh.status() //分片詳情 sh.enableSharding("cloud-docs") //開啓一個數據庫上的分片 db.getSiblingDB("config").databases,find() //查看數據庫列表 sh.shardCollection("cloud-docs.spreadsheets",{username:1,_id:1}) //使用一個分片鍵定義一個分片集合spreadsheets,根據用戶名進行切分 sh.getSiiblingDB("config").collections.findOne() //查看集合列表 db.chunks.count() //查看塊的個數 db.chunks.findOne() //查看塊的信息 db.changelog.count(}what:"split"|) //查看塊切分日誌 db.changelog.find({what:"moveChunk.commit"}).count() //查看日誌遷移記錄
(1)分片查詢類型
針對性查詢:查詢包含分片鍵
全局查詢或分散/彙集查:查詢不包含分片鍵
查詢過程:經過分片鍵將查詢路由給指定分片,一旦到了某個分片上,由分片自行決定使用哪一個索引來執行該查詢
(2)索引
每一個分片都維護了本身的索引,當在分片集合上聲明索引時,每一個分片都會爲它那部分集合構建獨立的索引,每一個分片上的分片集合都應該擁有相同的索引。
分片集合只容許在_id字段和分片鍵上添加惟一性索引,其餘地方不行,由於這須要在分片間進行通訊,實施起來很複雜。
當建立分片時,會根據分片鍵建立一個索引。
(1)分片鍵是不可修改的、分片鍵的選擇很是重要
(2)低效的分片鍵
分佈性差:如使用BSON對象ID,那麼會致使全部最新插入的文檔都會落到某個很小的連續範圍,沒法分散插入
缺少局部性:升序分片鍵有明確的方向,徹底隨機的分片鍵則根本沒有方向。前者沒法分散插入,後者插入分散,如使用MD5做爲分片鍵
(3)理想的分片鍵
將插入數據均勻分佈到各個分片上
保證CRUD操做可以利用局部性 有足夠的粒度進行塊拆分
知足這些要求的分片鍵一般由兩個字段組成,第一個是粗粒度的,第二個粒度較細
(1)部署拓撲
根據不一樣的數據中心劃分
(2)最低要求
(3)配置的注意事項
須要估計集羣大小,可以使用如下命令對現有集合進行分片處理
sh.splitAt("cloud-docs.spreadsheets",{"username":"chen","_id":ObjectId("")}) //手動拆分塊 sh.moveChunk("cloud-docs.spreadsheets",{username:"chen"},"shardB") //手動將某分塊移至分片B db.runCommand({removeshard:"shard-1/arete:30100,arete:30101"}) //刪除分片 db.runCommand({moveprimary:"test",to:"shard-0-test-rs"}); //移動主分片
(4)備份分片集羣
備份分片時須要中止均衡器
db.settings.update({_id:"ba;ancer"},{$set:{stopped:true},true}); sh.setBalancerState(false); //中止均衡器,此時均衡器將進行最後一輪均衡 db.locks.find({_id:"balancer"}); sh.isBalancerRunning(); //查看均衡器狀態,任何狀態大於0 的狀態值都說明均衡器仍在進行中
(1)部署架構
使用64位機器、32位機器會制約mongodb的內存,使其最大值爲1.5GB
(2)cpu
mongodb 只有當索引和工做集均可放入內存時,纔會遇到CPU瓶頸,CPU在mongodb使用中的做用是用來檢索數據,若是看到CPU使用飽和的狀況,能夠經過查詢慢查詢日誌,排查是否是查詢的問題致使的,若是是能夠經過添加索引來解決問題
mongodb寫入數據時會使用到CPU,可是mongodb寫入時間一次只用到一個核,若是有頻繁的寫入行爲,能夠經過分片來解決這個問題
(3)內存
大內存是mongodb的保障,若是工做集大小超過內存,將會致使性能降低,由於這將會增長數據加載入內存的動做
(4)硬盤
mongodb默認每60s會與磁盤強制同步一次,稱爲後臺刷新,會產生I/O操做。在重啓時mongodb會將磁盤裏面的數據加載至內存,高速磁盤將會減小同步的時間
(5)文件系統
使用ext4 和 xfs 文件系統
禁用最後訪問時間
vim /etc/fstab
(6)文件描述符
linux 默認文件描述符是1024,須要大額度的提高這個額度
(7)時鐘
mongodb各個節點服務器之間使用ntp服務器
(1)綁定IP
啓動時使用 - -bind_ip 命令
(2)身份驗證
啓動時使用 - -auth 命令
db.addUser("","",true) //建立用戶,最後一個參數指定是否只讀
(3)副本集身份認證
使用keyFile,注意keyFile文件的權限必須是600,否則會啓動不起來
mongoimport mongoexport
(1)拓撲結構
搭建副本集至少須要兩個節點,其中仲裁結點不須要有本身的服務器
(2)Journaling日誌
寫數據時會先寫入日誌,而此時的數據也不是直接寫入硬盤,而是寫入內存
可是Journaling日誌會消耗內存,因此能夠在主庫上面關閉,在從庫上面啓動
能夠單獨爲Journaling日誌使用一塊固態硬盤
在插入時,能夠經過驅動確保Journaling插入後再反饋,可是會很是影響性能。
logpath 選項指定日誌存儲地址 -vvvvv 選項(v越多,輸出越詳細) db.runCommand({logrotare:1}) 開啓滾動日誌
(1)serverStatus
(2)top
(3)db.currentOp()
動態展現mongodb活動數據
佔用當前mongodb監聽端口往上1000號的端口
(1)mongodump
把數據庫內容導出成BSON文件,而mongorestore能讀取並還原這些文件
(2)mongorestore
把導出的BSON文件還原到數據庫
(3)備份原始數據文件
能夠這麼作,可是,操做以前須要進行鎖庫處理 db.runCommand({fsync:1,lock:true})
db.$cmd.sys.unlock.findOne() 請求解鎖操做,可是數據庫不會馬上解鎖,須要使用db.currentOp()驗證。
(1)修復
mongd --repair 修復全部數據庫
db.runCommand({repairDatabase:1}) 修復單個數據庫
修復就是根據Jourling文件讀取和重寫全部數據文件並重建各個索引
(2)壓緊
db.spreadsheets.reIndex() //重建索引
db.runCommand({compact:"spreadsheets"})
壓緊,會重寫數據文件,並重建集合的所有索引,須要停機或者在從庫上面運行,若是須要在主庫上面運行,須要添加force參數 保證加寫鎖。
(1)監控磁盤狀態
iostat
(2)爲提高性能檢查索引和查詢
總的來講,掃描儘量少的文檔。
保證沒有冗餘的索引,冗餘的索引會佔用磁盤空間、消耗更多的內存,在每次寫入時還需作更多工做
(3)添加內存
db.stats() //查看數據庫數據佔用大小狀態
dataSize 數據大小 和 indexSize 索引大小,若是二者的和大於內存,那麼將會影響性能。
storageSize超過dataSize 數據大小 兩倍以上,就會因磁盤碎片而影響性能,須要壓縮。