NoSQL and mongoDB

時間 2019-11-12

標籤 nosql mongodb 欄目 NoSQL 简体版

原文原文鏈接

NoSQL 簡介

NoSQL(NoSQL = Not Only SQL )，意即"不只僅是SQL"。

在現代的計算系統上天天網絡上都會產生龐大的數據量。

這些數據有很大一部分是由關係數據庫管理系統（RDBMS）來處理。 1970年 E.F.Codd's提出的關係模型的論文 "A relational model of data for large shared data banks"，這使得數據建模和應用程序編程更加簡單。

經過應用實踐證實，關係模型是很是適合於客戶服務器編程，遠遠超出預期的利益，今天它是結構化數據存儲在網絡和商務應用的主導技術。

NoSQL 是一項全新的數據庫革命性運動，早期就有人提出，發展至2009年趨勢愈加高漲。NoSQL的擁護者們提倡運用非關係型的數據存儲，相對於鋪天蓋地的關係型數據庫運用，這一律念無疑是一種全新的思惟的注入。

關係型數據庫遵循ACID規則

事務在英文中是transaction，和現實世界中的交易很相似，它有以下四個特性：

1、A (Atomicity) 原子性

原子性很容易理解，也就是說事務裏的全部操做要麼所有作完，要麼都不作，事務成功的條件是事務裏的全部操做都成功，只要有一個操做失敗，整個事務就失敗，須要回滾。

好比銀行轉帳，從A帳戶轉100元至B帳戶，分爲兩個步驟：1）從A帳戶取100元；2）存入100元至B帳戶。這兩步要麼一塊兒完成，要麼一塊兒不完成，若是隻完成第一步，第二步失敗，錢會莫名其妙少了100元。

2、C (Consistency) 一致性

一致性也比較容易理解，也就是說數據庫要一直處於一致的狀態，事務的運行不會改變數據庫本來的一致性約束。

例如現有完整性約束a+b=10，若是一個事務改變了a，那麼必須得改變b，使得事務結束後依然知足a+b=10，不然事務失敗。

3、I (Isolation) 獨立性

所謂的獨立性是指併發的事務之間不會互相影響，若是一個事務要訪問的數據正在被另一個事務修改，只要另一個事務未提交，它所訪問的數據就不受未提交事務的影響。

好比如今有個交易是從A帳戶轉100元至B帳戶，在這個交易還未完成的狀況下，若是此時B查詢本身的帳戶，是看不到新增長的100元的。

4、D (Durability) 持久性

持久性是指一旦事務提交後，它所作的修改將會永久的保存在數據庫上，即便出現宕機也不會丟失。

分佈式系統

分佈式系統（distributed system）由多臺計算機和通訊的軟件組件經過計算機網絡鏈接（本地網絡或廣域網）組成。

分佈式系統是創建在網絡之上的軟件系統。正是由於軟件的特性，因此分佈式系統具備高度的內聚性和透明性。

所以，網絡和分佈式系統之間的區別更多的在於高層軟件（特別是操做系統），而不是硬件。

分佈式系統能夠應用在不一樣的平臺上如：Pc、工做站、局域網和廣域網上等。

分佈式計算的優勢

可靠性（容錯） ：

分佈式計算系統中的一個重要的優勢是可靠性。一臺服務器的系統崩潰並不影響到其他的服務器。

可擴展性：

在分佈式計算系統能夠根據須要增長更多的機器。

資源共享：

共享數據是必不可少的應用，如銀行，預訂系統。

靈活性：

因爲該系統是很是靈活的，它很容易安裝，實施和調試新的服務。

更快的速度：

分佈式計算系統能夠有多臺計算機的計算能力，使得它比其餘系統有更快的處理速度。

開放系統：

因爲它是開放的系統，本地或者遠程均可以訪問到該服務。

更高的性能：

相較於集中式計算機網絡集羣能夠提供更高的性能（及更好的性價比）。

分佈式計算的缺點

故障排除：

故障排除和診斷問題。

軟件：

更少的軟件支持是分佈式計算系統的主要缺點。

網絡：

網絡基礎設施的問題，包括：傳輸問題，高負載，信息丟失等。

安全性：

開放系統的特性讓分佈式計算系統存在着數據的安全性和共享的風險等問題。

什麼是NoSQL?

NoSQL，指的是非關係型的數據庫。NoSQL有時也稱做Not Only SQL的縮寫，是對不一樣於傳統的關係型數據庫的數據庫管理系統的統稱。

NoSQL用於超大規模數據的存儲。（例如谷歌或Facebook天天爲他們的用戶收集萬億比特的數據）。這些類型的數據存儲不須要固定的模式，無需多餘操做就能夠橫向擴展。

爲何使用NoSQL ?

今天咱們能夠經過第三方平臺（如：Google,Facebook等）能夠很容易的訪問和抓取數據。用戶的我的信息，社交網絡，地理位置，用戶生成的數據和用戶操做日誌已經成倍的增長。咱們若是要對這些用戶數據進行挖掘，那SQL數據庫已經不適合這些應用了, NoSQL 數據庫的發展卻能很好的處理這些大的數據。

RDBMS vs NoSQL

RDBMS 
- 高度組織化結構化數據 
- 結構化查詢語言（SQL） (SQL) 
- 數據和關係都存儲在單獨的表中。 
- 數據操縱語言，數據定義語言 
- 嚴格的一致性
- 基礎事務

NoSQL 
- 表明着不只僅是SQL
- 沒有聲明性查詢語言
- 沒有預約義的模式
-鍵 - 值對存儲，列存儲，文檔存儲，圖形數據庫
- 最終一致性，而非ACID屬性
- 非結構化和不可預知的數據
- CAP定理 
- 高性能，高可用性和可伸縮性

NoSQL 簡史

NoSQL一詞最先出現於1998年，是Carlo Strozzi開發的一個輕量、開源、不提供SQL功能的關係數據庫。

2009年，Last.fm的Johan Oskarsson發起了一次關於分佈式開源數據庫的討論[2]，來自Rackspace的Eric Evans再次提出了NoSQL的概念，這時的NoSQL主要指非關係型、分佈式、不提供ACID的數據庫設計模式。

2009年在亞特蘭大舉行的"no:sql(east)"討論會是一個里程碑，其口號是"select fun, profit from real_world where relational=false;"。所以，對NoSQL最廣泛的解釋是"非關聯型的"，強調Key-Value Stores和文檔數據庫的優勢，而不是單純的反對RDBMS。

CAP定理（CAP theorem）

在計算機科學中, CAP定理（CAP theorem）, 又被稱做 布魯爾定理（Brewer's theorem）, 它指出對於一個分佈式計算系統來講，不可能同時知足如下三點:

一致性(Consistency) (全部節點在同一時間具備相同的數據)
可用性(Availability) (保證每一個請求無論成功或者失敗都有響應)
分隔容忍(Partition tolerance) (系統中任意信息的丟失或失敗不會影響系統的繼續運做)
CAP理論的核心是：一個分佈式系統不可能同時很好的知足一致性，可用性和分區容錯性這三個需求，最多隻能同時較好的知足兩個。

所以，根據 CAP 原理將 NoSQL 數據庫分紅了知足 CA 原則、知足 CP 原則和知足 AP 原則三 大類：

CA - 單點集羣，知足一致性，可用性的系統，一般在可擴展性上不太強大。
CP - 知足一致性，分區容忍性的系統，一般性能不是特別高。
AP - 知足可用性，分區容忍性的系統，一般可能對一致性要求低一些。

NoSQL的優勢/缺點

優勢:

- 高可擴展性
- 分佈式計算
- 低成本
- 架構的靈活性，半結構化數據
- 沒有複雜的關係
缺點:

- 沒有標準化
- 有限的查詢功能（到目前爲止）
- 最終一致是不直觀的程序

BASE

BASE：Basically Available, Soft-state, Eventually Consistent。 由 Eric Brewer 定義。

CAP理論的核心是：一個分佈式系統不可能同時很好的知足一致性，可用性和分區容錯性這三個需求，最多隻能同時較好的知足兩個。

BASE是NoSQL數據庫一般對可用性及一致性的弱要求原則:

Basically Availble --基本可用
Soft-state --軟狀態/柔性事務。 "Soft state" 能夠理解爲"無鏈接"的, 而 "Hard state" 是"面向鏈接"的
Eventual Consistency -- 最終一致性， 也是是 ACID 的最終目的。

ACID vs BASE

ACID	BASE
原子性(Atomicity)	基本可用(Basically Available)
一致性(Consistency)	軟狀態/柔性事務(Soft state)
隔離性(Isolation)	最終一致性 (Eventual consistency)
持久性 (Durable)

NoSQL 數據庫分類

類型	部分表明	特色
列存儲	Hbasesql Cassandra數據庫 Hypertable編程	顧名思義，是按列存儲數據的。最大的特色是方便存儲結構化和半結構化數據，方便作數據壓縮，對針對某一列或者某幾列的查詢有很是大的IO優點。json
文檔存儲設計模式	MongoDB安全 CouchDB服務器	文檔存儲通常用相似json的格式存儲，存儲的內容是文檔型的。這樣也就有機會對某些字段創建索引，實現關係數據庫的某些功能。網絡
key-value存儲架構	Tokyo Cabinet / Tyrant併發 Berkeley DB MemcacheDB Redis	能夠經過key快速查詢到其value。通常來講，存儲無論value的格式，照單全收。（Redis包含了其餘功能）
圖存儲	Neo4J FlockDB	圖形關係的最佳存儲。使用傳統關係數據庫來解決的話性能低下，並且設計使用不方便。
對象存儲	db4o Versant	經過相似面嚮對象語言的語法操做數據庫，經過對象的方式存取數據。
xml數據庫	Berkeley DB XML BaseX	高效的存儲XML數據，並支持XML的內部查詢語法，好比XQuery,Xpath。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。