轉自:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.htmlhtml
轉自:http://blog.csdn.net/allen879/article/details/40461227sql
轉自:http://blog.itpub.net/28912557/viewspace-776770/數據庫
因爲項目須要,將原來的系統升級須要用到Hbase技術,使用了以後發現,確實很不錯。那麼問題來了,爲何在這裏要用Hbase,而不是之前的關係型數據庫Oracle,他們各自有什麼特色,應用場景有何不一樣?帶着問題去學習效果會更好。數組
首先來看關係型數據庫與NoSQL的對比:服務器
關係型數據庫把全部的數據都經過行和列的二元表現形式表示出來。併發
關係型數據庫的優點:memcached
1. 保持數據的一致性(事務處理)高併發
2.因爲以標準化爲前提,數據更新的開銷很小(相同的字段基本上都只有一處)性能
3. 能夠進行Join等複雜查詢學習
其中可以保持數據的一致性是關係型數據庫的最大優點。
關係型數據庫的不足:
不擅長的處理
1. 大量數據的寫入處理
2. 爲有數據更新的表作索引或表結構(schema)變動
3. 字段不固定時應用
4. 對簡單查詢須要快速返回結果的處理
--大量數據的寫入處理
讀寫集中在一個數據庫上讓數據庫不堪重負,大部分網站已使用主從複製技術實現讀寫分離,以提升讀寫性能和讀庫的可擴展性。
因此在進行大量數據操做時,會使用數據庫主從模式。數據的寫入由主數據庫負責,數據的讀入由從數據庫負責,能夠比較簡單地經過增長從數據庫來實現規模化,可是數據的寫入卻徹底沒有簡單的方法來解決規模化問題。
第一,要想將數據的寫入規模化,能夠考慮把主數據庫從一臺增長到兩臺,做爲互相關聯複製的二元主數據庫使用,確實這樣能夠把每臺主數據庫的負荷減小一半,可是更新處理會發生衝突,可能會形成數據的不一致,爲了不這樣的問題,須要把對每一個表的請求分別分配給合適的主數據庫來處理。
第二,能夠考慮把數據庫分割開來,分別放在不一樣的數據庫服務器上,好比將不一樣的表放在不一樣的數據庫服務器上,數據庫分割能夠減小每臺數據庫服務器上的數據量,以便減小硬盤IO的輸入、輸出處理,實現內存上的高速處理。可是因爲分別存儲字不一樣服務器上的表之間沒法進行Join處理,數據庫分割的時候就須要預先考慮這些問題,數據庫分割以後,若是必定要進行Join處理,就必需要在程序中進行關聯,這是很是困難的。
--爲有數據更新的表作索引或表結構變動
在使用關係型數據庫時,爲了加快查詢速度須要建立索引,爲了增長必要的字段就必定要改變表結構,爲了進行這些處理,須要對錶進行共享鎖定,這期間數據變動、更新、插入、刪除等都是沒法進行的。若是須要進行一些耗時操做,例如爲數據量比較大的表建立索引或是變動其表結構,就須要特別注意,長時間內數據可能沒法進行更新。
--字段不固定時的應用
若是字段不固定,利用關係型數據庫也是比較困難的,有人會說,須要的時候加個字段就能夠了,這樣的方法也不是不能夠,但在實際運用中每次都進行反覆的表結構變動是很是痛苦的。你也能夠預先設定大量的預備字段,但這樣的話,時間一長很容易弄不清除字段和數據的對應狀態,即哪一個字段保存有哪些數據。
--對簡單查詢須要快速返回結果的處理 (這裏的「簡單」指的是沒有複雜的查詢條件)
這一點稱不上是缺點,但無論怎樣,關係型數據庫並不擅長對簡單的查詢快速返回結果,由於關係型數據庫是使用專門的sql語言進行數據讀取的,它須要對sql與越南進行解析,同時還有對錶的鎖定和解鎖等這樣的額外開銷,這裏並非說關係型數據庫的速度太慢,而只是想告訴你們若但願對簡單查詢進行高速處理,則沒有必要非使用關係型數據庫不可。
---------------------------
NoSQL數據庫
關係型數據庫應用普遍,能進行事務處理和錶鏈接等複雜查詢。相對地,NoSQL數據庫只應用在特定領域,基本上不進行復雜的處理,但它偏偏彌補了以前所列舉的關係型數據庫的不足之處。
優勢:
易於數據的分散
各個數據之間存在關聯是關係型數據庫得名的主要緣由,爲了進行join處理,關係型數據庫不得不把數據存儲在同一個服務器內,這不利於數據的分散,這也是關係型數據庫並不擅長大數據量的寫入處理的緣由。相反NoSQL數據庫本來就不支持Join處理,各個數據都是獨立設計的,很容易把數據分散在多個服務器上,故減小了每一個服務器上的數據量,即便要處理大量數據的寫入,也變得更加容易,數據的讀入操做固然也一樣容易。
典型的NoSQL數據庫
臨時性鍵值存儲(memcached、Redis)、永久性鍵值存儲(ROMA、Redis)、面向文檔的數據庫(MongoDB、CouchDB)、面向列的數據庫(Cassandra、HBase)
1、 鍵值存儲
它的數據是以鍵值的形式存儲的,雖然它的速度很是快,但基本上只能經過鍵的徹底一致查詢獲取數據,根據數據的保存方式能夠分爲臨時性、永久性和二者兼具 三種。
(1)臨時性
所謂臨時性就是數據有可能丟失,memcached把全部數據都保存在內存中,這樣保存和讀取的速度很是快,可是當memcached中止時,數據就不存在了。因爲數據保存在內存中,因此沒法操做超出內存容量的數據,舊數據會丟失。總結來講:
。在內存中保存數據
。能夠進行很是快速的保存和讀取處理
。數據有可能丟失
(2)永久性
所謂永久性就是數據不會丟失,這裏的鍵值存儲是把數據保存在硬盤上,與臨時性比起來,因爲必然要發生對硬盤的IO操做,因此性能上仍是有差距的,但數據不會丟失是它最大的優點。總結來講:
。在硬盤上保存數據
。能夠進行很是快速的保存和讀取處理(但沒法與memcached相比)
。數據不會丟失
(3) 二者兼備
Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具。Redis首先把數據保存在內存中,在知足特定條件(默認是 15分鐘一次以上,5分鐘內10個以上,1分鐘內10000個以上的鍵發生變動)的時候將數據寫入到硬盤中,這樣既確保了內存中數據的處理速度,又能夠經過寫入硬盤來保證數據的永久性,這種類型的數據庫特別適合處理數組類型的數據。總結來講:
。同時在內存和硬盤上保存數據
。能夠進行很是快速的保存和讀取處理
。保存在硬盤上的數據不會消失(能夠恢復)
。適合於處理數組類型的數據
2、面向文檔的數據庫
MongoDB、CouchDB屬於這種類型,它們屬於NoSQL數據庫,但與鍵值存儲相異。
(1)不定義表結構
即便不定義表結構,也能夠像定義了表結構同樣使用,還省去了變動表結構的麻煩。
(2)可使用複雜的查詢條件
跟鍵值存儲不一樣的是,面向文檔的數據庫能夠經過複雜的查詢條件來獲取數據,雖然不具有事務處理和Join這些關係型數據庫所具備的處理能力,但初次之外的其餘處理基本上都能實現。
3、 面向列的數據庫
Cassandra、HBae、HyperTable屬於這種類型,因爲近年來數據量出現爆發性增加,這種類型的NoSQL數據庫尤爲引入注目。
普通的關係型數據庫都是以行爲單位來存儲數據的,擅長以行爲單位的讀入處理,好比特定條件數據的獲取。所以,關係型數據庫也被成爲面向行的數據庫。相反,面向列的數據庫是以列爲單位來存儲數據的,擅長以列爲單位讀入數據。
面向列的數據庫具備搞擴展性,即便數據增長也不會下降相應的處理速度(特別是寫入速度),因此它主要應用於須要處理大量數據的狀況。另外,把它做爲批處理程序的存儲器來對大量數據進行更新也是很是有用的。但因爲面向列的數據庫跟現行數據庫存儲的思惟方式有很大不一樣,故應用起來十分困難。
總結:關係型數據庫與NoSQL數據庫並不是對立而是互補的關係,即一般狀況下使用關係型數據庫,在適合使用NoSQL的時候使用NoSQL數據庫,讓NoSQL數據庫對關係型數據庫的不足進行彌補。
1 主要區別
1.一、Hbase適合大量插入同時又有讀的狀況
1.二、 Hbase的瓶頸是硬盤傳輸速度,Oracle的瓶頸是硬盤尋道時間。
Hbase本質上只有一種操做,就是插入,其更新操做是插入一個帶有新的時間戳的行,而刪除是插入一個帶有插入標記的行。其主要操做是收集內存中一批數據,而後批量的寫入硬盤,因此其寫入的速度主要取決於硬盤傳輸的速度。Oracle則不一樣,由於他常常要隨機讀寫,這樣硬盤磁頭須要不斷的尋找數據所在,因此瓶頸在於硬盤尋道時間。
1.三、Hbase很適合尋找按照時間排序top n的場景
1.四、索引不一樣形成行爲的差別。
1.五、Oracle 既能夠作OLTP又能夠作OLAP,但在某種極端的狀況下(負荷十分之大),就不適合了。
2 Hbase的侷限:
一、只能作簡單的Key value查詢,複雜的sql統計作不到。
二、只能在row key上作快速查詢。
3 傳統數據庫的行式存儲
在數據分析的場景裏面,咱們常常是以某個列做爲查詢條件,返回的結果常常也只是某些列,不是所有的列。行式數據庫在這種狀況下的I/O性能會不好,以Oracle爲例,Oracle會有一個很大的數據文件,在這個數據文件中,劃分了不少block,而後在每一個block中放入行,行是一行一行放進去,擠在一塊兒,而後把block塞滿,固然也會預留一些空間,用於未來update。這種結構的缺點是:當咱們讀某個列的時候,好比咱們只須要讀紅色標記的列的時候,不能只讀這部分數據,我必須把整個block讀取到內存中,而後再把這些列的數據取出來,換句話說,我爲了讀表中某些列的數據,我必須把整個列的行讀完,才能夠讀到這些列。若是這些列的數據不多,好比1T的數據中只佔了100M, 爲了讀100M數據卻要讀取1TB的數據到內存中去,則顯然是不划算。
3.1 B+索引
Oracle中採用的數據訪問技術主要是B數索引:
從樹的跟節點出發,能夠找到葉子節點,其記錄了key值對應的那行的位置。
對B樹的操做:
B樹插入——分裂節點
B數刪除——合併節點
4 列式存儲
同一個列的數據會擠在一塊兒,好比擠在block裏,當我須要讀某個列的時候,值須要把相關的文件或塊讀到內存中去,整個列就會被讀出來,這樣I/O會少不少。
同一個列的數據的格式比較相似,這樣能夠作大幅度的壓縮。這樣節省了存儲空間,也節省了I/O,由於數據被壓縮了,這樣讀的數據量隨之也少了。
行式數據庫適合OLTP,反倒列式數據庫不適合OLTP。
4.1 BigTable的LSM(Log Struct Merge)索引
在Hbase中日誌即數據,數據就是日誌,他們是一體化的。爲何這麼說了,由於Hbase的更新時插入一行,刪除也是插入一行,而後打上刪除標記,則不就是日誌嗎?
在Hbase中,有Memory Store,還有Store File,其實每一個Memory Store和每一個Store File就是對每一個列族附加上一個B+樹(有點像Oracle的索引組織表,數據和索引是一體化的), 也就是圖的下面是列族,上面是B+樹,當進行數據的查詢時,首先會在內存中memory store的B+樹中查找,若是找不到,再到Store File中去找。
若是找的行的數據分散在好幾個列族中,那怎麼把行的數據找全呢?那就須要找好幾個B+樹,這樣效率就比較低了。因此儘可能讓每次insert的一行的列族都是稀疏的,只在某一個列族上有值,其餘列族沒有值,
一,索引不一樣形成行爲的差別
Hbase只能創建一個主鍵索引,並且以後的數據查詢也只能基於該索引進行簡單的key-value查詢;
可是Oracle能夠創建任意索引,也能夠按照任意列進行數據查詢。
二,Hbase適合大量插入同時又有讀的狀況,讀通常爲key-value查詢
大數據、高併發正合Hbase的胃口
三,Hbase的瓶頸是硬盤傳輸速度,Oracle的瓶頸是硬盤尋道時間
Hbase都是大量往硬盤上寫數據(沒有delete、update,都是insert),即便是讀數據,也是優先MemStore,因此硬盤傳輸速度成爲其瓶頸;
而Oracle因爲具備隨機訪問特性(select、update等),因此硬盤尋道時間成爲其瓶頸,而尋道時間主要由轉速決定。
四,Hbase很適合尋找按照時間排序top n的場景
由於Hbase的數據都具備時間戳(Hbase默認就有時間戳)
行式存儲示意圖:
行式存儲:數據存放在數據文件內數據文件的基本組成單位:塊/頁(一行接一行存在block中,固然block不會填滿,預留空間進行行的操做,譬如:update)塊內結構:塊頭、數據區爲了select橘紅色的列,行式數據庫會把整個block加在到內存,而後篩選出所需列。而對於Hbase而言,因爲數據存儲特性,數據以列族爲單位進行存儲,一個文件塊存儲的都是同一個列族的數據),這樣,查詢會比行式數據庫優化不少。另外,因爲在Hbase中,同一個列裏面數據格式比較接近,或者長度相近,從而能夠對數據進行大幅度的壓縮,結果就是節省了硬盤空間,也減小了IO