分佈式系統及NoSQL簡介web
==============================================================================sql
1.數據存儲數據庫
★數據模型:json
層次模型;設計模式
網狀模型;安全
關係模型;服務器
對象關係模型網絡
☉關係模型:架構
關係型數據,嚴格的schema;併發
ACID規則
1.介紹
★分佈式系統:
分佈式系統(distributed system)由多臺計算機和通訊的軟件組件經過計算機網絡鏈接(本地網絡或廣域網)組成。
分佈式系統是創建在網絡之上的軟件系統。正是由於軟件的特性,因此分佈式系統具備高度的內聚性和透明性。
所以,網絡和分佈式系統之間的區別更多的在於高層軟件(特別是操做系統),而不是硬件。
分佈式系統能夠應用在在不一樣的平臺上如:Pc、工做站、局域網和廣域網上等。
2.分佈式計算的優勢
★優勢
☉可靠性(容錯) :
分佈式計算系統中的一個重要的優勢是可靠性。一臺服務器的系統崩潰並不影響到其他的服務器。
☉可擴展性:
在分佈式計算系統能夠根據須要增長更多的機器。
☉資源共享:
共享數據是必不可少的應用,如銀行,預訂系統。
☉靈活性:
因爲該系統是很是靈活的,它很容易安裝,實施和調試新的服務。
☉更快的速度:
分佈式計算系統能夠有多臺計算機的計算能力,使得它比其餘系統有更快的處理速度。
☉開放系統:
因爲它是開放的系統,本地或者遠程均可以訪問到該服務。
☉更高的性能:
相較於集中式計算機網絡集羣能夠提供更高的性能(及更好的性價比)。
2.分佈式計算的缺點
★缺點
☉故障排除:
故障排除和診斷問題。
☉軟件:
更少的軟件支持是分佈式計算系統的主要缺點。
☉網絡:
網絡基礎設施的問題,包括:傳輸問題,高負載,信息丟失等。
☉安全性:
開發系統的特性讓分佈式計算系統存在着數據的安全性和共享的風險等問題。
1.介紹
★百度百科:
NoSQL,泛指非關係型的數據庫。隨着互聯網web2.0網站的興起,傳統的關係數據庫在應付web2.0網站,特別是超大規模和高併發的SNS類型的web2.0純動態網站已經顯得力不從心,暴露了不少難以克服的問題,而非關係型的數據庫則因爲其自己的特色獲得了很是迅速的發展。NoSQL數據庫的產生就是爲了解決大規模數據集合多重數據種類帶來的挑戰,尤爲是大數據應用難題。
★什麼是NoSQL:
NoSQL(NoSQL = Not Only SQL ),意即"不只僅是SQL"。
NoSQL,指的是非關係型的數據庫。NoSQL有時也稱做Not Only SQL的縮寫,是對不一樣於傳統的關係型數據庫的數據庫管理系統的統稱。
NoSQL用於超大規模數據的存儲。(例如谷歌或Facebook天天爲他們的用戶收集萬億比特的數據)。這些類型的數據存儲不須要固定的模式,無需多餘操做就能夠橫向擴展。
★NoSQL簡史:
NoSQL一詞最先出現於1998年,是Carlo Strozzi開發的一個輕量、開源、不提供SQL功能的關係數據庫。
2009年,Last.fm的Johan Oskarsson發起了一次關於分佈式開源數據庫的討論[2],來自Rackspace的Eric Evans再次提出了NoSQL的概念,這時的NoSQL主要指非關係型、分佈式、不提供ACID的數據庫設計模式。
2009年在亞特蘭大舉行的"no:sql(east)"討論會是一個里程碑,其口號是"select fun, profit from real_world where relational=false;"。所以,對NoSQL最廣泛的解釋是"非關聯型的",強調Key-Value Stores和文檔數據庫的優勢,而不是單純的反對RDBMS。
2.爲何使用NoSQL?
今天咱們能夠經過第三方平臺(如:Google,Facebook等)能夠很容易的訪問和抓取數據。用戶的我的信息,社交網絡,地理位置,用戶生成的數據和用戶操做日誌已經成倍的增長。咱們若是要對這些用戶數據進行挖掘,那SQL數據庫已經不適合這些應用了, NoSQL數據庫的發展也卻能很好的處理這些大的數據。
3.RDBMS vs NoSQL
★RDBMS
- 高度組織化結構化數據
- 結構化查詢語言(SQL) (SQL)
- 數據和關係都存儲在單獨的表中。
- 數據操縱語言,數據定義語言
- 嚴格的一致性
- 基礎事務★NoSQL
- 表明着不只僅是SQL
- 沒有聲明性查詢語言
- 沒有預約義的模式
-鍵 - 值對存儲,列存儲,文檔存儲,圖形數據庫
- 最終一致性,而非ACID屬性
- 非結構化和不可預知的數據
- CAP定理
- 高性能,高可用性和可伸縮性
4.CAP定理
在計算機科學中, CAP定理(CAP theorem), 又被稱做 布魯爾定理(Brewer's theorem), 它指出對於一個分佈式計算系統來講,不可能同時知足如下三點:
☉一致性(Consistency)
全部節點在同一時間具備相同的數據
☉可用性(Availability)
保證每一個請求無論成功或者失敗都有響應
☉分隔容忍(Partition tolerance)
系統中任意信息的丟失或失敗不會影響系統的繼續運做
★CAP理論的核心是:
一個分佈式系統不可能同時很好的知足一致性,可用性和分區容錯性這三個需求,最多隻能同時較好的知足兩個。
所以,根據 CAP 原理將 NoSQL 數據庫分紅了知足 CA 原則、知足 CP 原則和知足 AP 原則三 大類:
CA - 單點集羣,知足一致性,可用性的系統,一般在可擴展性上不太強大。
CP - 知足一致性,分區容忍性的系統,一般性能不是特別高。
AP - 知足可用性,分區容忍性的系統,一般可能對一致性要求低一些。
5.NoSQL的優缺點
★優勢
- 高可擴展性
- 分佈式計算
- 低成本
- 架構的靈活性,半結構化數據
- 沒有複雜的關係
★缺點
- 沒有標準化
- 有限的查詢功能(到目前爲止)
- 最終一致是不直觀的程序
6.BASE
★BASE
BASE:Basically Available, Soft-state, Eventually Consistent。 由 Eric Brewer 定義。
☉CAP理論的核心是:
一個分佈式系統不可能同時很好的知足一致性,可用性和分區容錯性這三個需求,最多隻能同時較好的知足兩個。
☉BASE是NoSQL數據庫一般對可用性及一致性的弱要求原則:
Basically Availble --基本可用
Soft-state --軟狀態/柔性事務。 "Soft state" 能夠理解爲"無鏈接"的, 而 "Hard state" 是"面向鏈接"的
Eventual Consistency --最終一致性;最終一致性, 也是是 ACID 的最終目的。
7.NoSQL數據庫分類
類型 | 部分表明 |
特色 |
列存儲 | Hbase Cassandra Hypertable |
顧名思義,是按列存儲數據的。最大的特色是方便存儲結構化和半結構化數據,方便作數據壓縮,對針對某一列或者某幾列的查詢有很是大的IO優點。 |
文檔 存儲 |
MongoDB CouchDB |
文檔存儲通常用相似json的格式存儲,存儲的內容是文檔型的。這樣也就有有機會對某些字段創建索引,實現關係數據庫的某些功能。 |
key-value存儲 |
Tokyo Cabinet / Tyrant Berkeley DB MemcacheDB Redis |
能夠經過key快速查詢到其value。通常來講,存儲無論value的格式,照單全收。(Redis包含了其餘功能) |
圖存儲 |
Neo4J FlockDB |
圖形關係的最佳存儲。使用傳統關係數據庫來解決的話性能低下,並且設計使用不方便。 |
對象存儲 |
db4o Versant |
經過相似面嚮對象語言的語法操做數據庫,經過對象的方式存取數據。 |
xml數據庫 |
Berkeley DB XML BaseX |
高效的存儲XML數據,並支持XML的內部查詢語法,好比XQuery,Xpath。 |