各位高手您們好,我最近接手公司裏一個比較棘手的問題,關於如何利用MySQL存儲大數據量的問題,主要是數據庫中的兩張歷史數據表,一張模擬量歷史數據和一張開關量歷史數據表,這兩張表字段設計的很簡單(OrderNo,Value,DataTime)。基本上每張表天天能夠增長几千萬條數據,我想問如何存儲數據才能不影響檢索速度呢?需不須要換oracle數據庫呢?由於我是數據庫方面的新手,但願能夠說的詳細一點,萬分感謝!!?-0-#暫時能夠先考慮用infobright 這是mysql的數據倉庫解決方案若是這都知足不了需求 再考慮hadoop html
暫時能夠先考慮用infobright 這是MySQL的數據倉庫解決方案
若是這都知足不了需求 再考慮hadoopmysql
好吧,你的檢索SQL是怎麼樣的?
每張表天天幾千萬,對於寫入性能的要求也就很高了。10000000/3600/24,每秒要寫入115條記錄。
並且你的數據屬於歸檔類數據,能夠用mongodb來存儲,寫入速度和查詢速度比MYSQL都要好不少。
提問:如何設計或優化千萬級別的大表?此外無其餘信息,我的以爲這個話題有點範,就只好簡單說下該如何作,對於一個存儲設計,必須考慮業務特色,收集的信息以下:
1.數據的容量:1-3年內會大概多少條數據,每條數據大概多少字節;
2.數據項:是否有大字段,那些字段的值是否常常被更新;
3.數據查詢SQL條件:哪些數據項的列名稱常常出如今WHERE、GROUP BY、ORDER BY子句中等;
4.數據更新類SQL條件:有多少列常常出現UPDATE或DELETE 的WHERE子句中;
5.SQL量的統計比,如:SELECT:UPDATE+DELETE:INSERT=多少?
6.預計大表及相關聯的SQL,天天總的執行量在何數量級?
7.表中的數據:更新爲主的業務 仍是 查詢爲主的業務
8.打算採用什麼數據庫物理服務器,以及數據庫服務器架構?
9.併發如何?
10.存儲引擎選擇InnoDB仍是MyISAM?
大體明白以上10個問題,至於如何設計此類的大表,應該什麼都清楚了!
至於優化如果指建立好的表,不能變更表結構的話,那建議InnoDB引擎,多利用點內存,減輕磁盤IO負載,由於IO每每是數據庫服務器的瓶頸
另外對優化索引結構去解決性能問題的話,建議優先考慮修改類SQL語句,使他們更快些,不得已只靠索引組織結構的方式,固然此話前提是,
索引已經建立的很是好,如果讀爲主,能夠考慮打開query_cache,
以及調整一些參數值:sort_buffer_size,read_buffer_size,read_rnd_buffer_size,join_buffer_size
更多信息參見:
MySQL數據庫服務器端核心參數詳解和推薦配置
http://www.mysqlops.com/2011/10/26/mysql-variables-one.html
您好,主要是檢索某段時間內的模擬量值(select * from table where datatime between t1 and t2 ),目前打算使用分表,分區的方式解決算法
不紙上談兵,說一下個人思路以及個人解決,拋磚引玉了
我最近正在解決這個問題
我如今的公司有三張表,是5億的數據,天天張表天天的增量是100w
每張表大概在10個columns左右
下面是我作的測試和對比
1.首先看engine,在大數據量狀況下,在沒有作分區的狀況下
mysiam比innodb在只讀的狀況下,效率要高13%左右
2.在作了partition以後,你能夠去讀一下mysql的官方文檔,其實對於partition,專門是對myisam作的優化,對於innodb,全部的數據是存在ibdata裏面的,因此即便你能夠看到schema變了,其實沒有本質的變化
在分區出於同一個physical disk下面的狀況下,提高大概只有1%
在分區在不一樣的physical disk下,我分到了三個不一樣的disks下,提高大概在3%,其實所謂的吞吐量,由不少因素決定的,好比你的explain parition時候能夠看到,record在那一個分區,若是每一個分區都有,其實本質上沒有解決讀的問題,這樣只會提高寫的效率。
另一個問題在於,分區,你怎麼分,若是一張表,有三個column都是常常被用於作查詢條件的,實際上是一件很悲慘的事情,由於你沒有辦法對全部的sql作針對性的分區,若是你只是如mysql官方文檔上說的,只對時間作一個分區,並且你也只用時間查詢的話,恭喜你
3.表主要用來讀仍是寫,其實這個問題是不充分的,應該這樣問,你在寫入的時候,同時併發的查詢多麼?個人問題還比較簡單,由於mongodb的shredding支持不能,在crush以後,仍是回到mysql,因此在一般狀況下,9am-9pm,寫入的狀況不少,這個時候我會作一個view,view是基於最近被插入或者常常被查詢的,經過作view來分離讀取,就是說寫是在table上的,讀在進行邏輯判斷前是在view上操做的
4作一些archive table,好比先對這些大表作不少已有的統計分析,而後經過已有的分析+增量來解決
5若是你用mysiam,還有一個問題你要注意,若是你的.configure的時候,加了一個max index length參數的時候,當你的record數大於制定長度的時候,這個index會被disable
6 sql
照你的需求來看,能夠有兩種方式,一種是分表,另外一種是分區
首先是分表,就像你本身所說的,能夠按月分表,能夠按用戶ID分表等等,至於採用哪一種方式分表,要看你的業務邏輯了,分表很差的地方就是查詢有時候須要跨多個表。mongodb
而後是分區,分區能夠將表分離在若干不一樣的表空間上,用分而治之的方法來支撐無限膨脹的大表,給大表在物理一級的可管理性。將大表分割成較小的分區能夠改善表的維護、備份、恢復、事務及查詢性能。分區的好處是分區的優勢:數據庫
1 加強可用性:若是表的一個分區因爲系統故障而不能使用,表的其他好的分區仍然可使用;緩存
2 減小關閉時間:若是系統故障隻影響表的一部分分區,那麼只有這部分分區須要修復,故能比整個大表修復花的時間更少;安全
3 維護輕鬆:若是須要重建表,獨立管理每一個分區比管理單個大表要輕鬆得多;服務器
4 均衡I/O:能夠把表的不一樣分區分配到不一樣的磁盤來平衡I/O改善性能;數據結構
5 改善性能:對大表的查詢、增長、修改等操做能夠分解到表的不一樣分區來並行執行,可以使運行速度更快;
6 分區對用戶透明,最終用戶感受不到分區的存在。
現在隨着互聯網的發展,數據的量級也是撐指數的增加,從GB到TB到PB。對數據的各類操做也是越發的困難,傳統的關係性數據庫已經沒法知足快速查詢與插入數據的需求。這個時候NoSQL的出現暫時解決了這一危機。它經過下降數據的安全性,減小對事務的支持,減小對複雜查詢的支持,來獲取性能上的提高。可是,在有些場合NoSQL一些折衷是沒法知足使用場景的,就好比有些使用場景是絕對要有事務與安全指標的。這個時候NoSQL確定是沒法知足的,因此仍是須要使用關係性數據庫。
雖然關係型數據庫在海量數據中遜色於NoSQL數據庫,可是若是你操做正確,它的性能仍是會知足你的需求的。針對數據的不一樣操做,其優化方向也是不盡相同。對於數據移植,查詢和插入等操做,能夠從不一樣的方向去考慮。而在優化的時候還須要考慮其餘相關操做是否會產生影響。就好比你能夠經過建立索引提升查詢性能,可是這會致使插入數據的時候由於要創建更新索引致使插入性能下降,你是否能夠接受這一下降那。因此,對數據庫的優化是要考慮多個方向,尋找一個折衷的最佳方案。
最簡單也是最經常使用的優化就是查詢。由於對於CRUD操做,read操做是佔據了絕大部分的比例,因此read的性能基本上決定了應用的性能。對於查詢性能最經常使用的就是建立索引。通過測試,2000萬條記錄,每條記錄200字節兩列varchar類型的。當不使用索引的時候查詢一條記錄須要一分鐘,而當建立了索引的時候查詢時間能夠忽略。可是,當你在已有數據上添加索引的時候,則須要耗費很是大的時間。我插入2000萬條記錄以後,再建立索引大約話費了幾十分鐘的樣子。
建立索引的弊端和場合。雖然建立索引能夠很大程度上優化查詢的速度,可是弊端也是很明顯的。一個是在插入數據的時候,建立索引也須要消耗部分的時間,這就使得插入性能在必定程度上下降;另外一個很明顯的是數據文件變的更大。在列上建立索引的時候,每條索引的長度是和你建立列的時候制定的長度相同的。好比你建立varchar(100),當你在該列上建立索引,那麼索引的長度則是102字節,由於長度超過64字節則會額外增長2字節記錄索引的長度。
從上圖能夠看到我在YCSB_KEY這一列(長度100)上建立了一個名字爲index_ycsb_key的索引,每條索引長度都爲102,想象一下當數據變的巨大無比的時候,索引的大小也是不能夠小覷的。並且從這也能夠看出,索引的長度和列類型的長度還不一樣,好比varchar它是變長的字符類型(請看MySQL數據類型分析),實際存儲長度是是實際字符的大小,可是索引倒是你聲明的長度的大小。你建立列的時候聲明100字節,那麼索引長度就是這個字節再加上2,它無論你實際存儲是多大。
除了建立索引須要消耗時間,索引文件體積會變的愈來愈大以外,建立索引也須要看的你存儲數據的特徵。當你存儲數據很大一部分都是重複記錄,那這個時候建立索引是百害而無一利。請先查看MySQL索引介紹。因此,當不少數據重複的時候,索引帶來的查詢提高的效果是能夠直接忽略的,可是這個時候你還要承受插入數據的時候建立索引帶來的性能消耗。
在MySQL中有多種多樣的緩存,有的緩存負責緩存查詢語句,也有的負責緩存查詢數據。這些緩存內容客戶端沒法操做,是由server端來維護的。它會隨着你查詢與修改等相應不一樣操做進行不斷更新。經過其配置文件咱們能夠看到在MySQL中的緩存:
在這裏主要分析query cache,它是主要用來緩存查詢數據。當你想使用該cache,必須把query_cache_size大小設置爲非0。當設置大小爲非0的時候,server會就會緩存每次查詢返回的結果,到下次相同查詢server就直接從緩存獲取數據,而不是再執行查詢。能緩存的數據量就和你的size大小設置有關,因此當你設置的足夠大,數據能夠徹底緩存到內存,速度就會很是之快。
可是,query cache也有它的弊端。當你對數據表作任何的更新操做(update/insert/delete)等操做,server爲了保證緩存與數據庫的一致性,會強制刷新緩存數據,致使緩存數據所有失效。因此,當一個表格的更新數據表操做很是多的話,query cache是不會起到查詢提高的性能,還會影響其餘操做的性能。
其實對於查詢性能提高,最重要也是最根本的手段也是slow_query的設置。
當你設置slow_query_log爲on的時候,server端會對每次的查詢進行記錄,當超過你設置的慢查詢時間(long_query_time)的時候就把該條查詢記錄到日誌。而你對性能進行優化的時候,就能夠分析慢查詢日誌,對慢查詢的查詢語句進行有目的的優化。能夠經過建立各類索引,能夠經過分表等操做。那爲何要分庫分表那,當不分庫分表的時候那個地方是限制性能的地方啊。下面咱們就簡單介紹。
分庫分表應該算是查詢優化的殺手鐗了。上述各類措施在數據量達到必定等級以後,能起到優化的做用已經不明顯了。這個時候就必須對數據量進行分流。分流通常有分庫與分表兩種措施。而分表又有垂直切分與水平切分兩種方式。下面咱們就針對每一種方式簡單介紹。
對於mysql,其數據文件是以文件形式存儲在磁盤上的。當一個數據文件過大的時候,操做系統對大文件的操做就會比較麻煩與耗時,並且有的操做系統就不支持大文件,因此這個時候就必須分表了。另外對於mysql經常使用的存儲引擎是Innodb,它的底層數據結構是B+樹。當其數據文件過大的時候,B+樹就會從層次和節點上比較多,當查詢一個節點的時候可能會查詢不少層次,而這一定會致使屢次IO操做進行裝載進內存,確定會耗時的。除此以外還有Innodb對於B+樹的鎖機制。對每一個節點進行加鎖,那麼當更改表結構的時候,這時候就會樹進行加鎖,當表文件大的時候,這能夠認爲是不可實現的。
因此綜上咱們就必須進行分表與分庫的操做。
當數據量達到必定等級以後,那麼移庫將是一個很是慎重又危險的工做。在移庫中保證先後數據的一致性,各類突發狀況的處理,移庫過程當中數據的變遷,每個都是一個很是困難的問題。
當進行數據遷移的時候,確定會存在大數據的從新導入,你能夠選擇直接load文件,有的時候可能就須要代碼插入了。這個時候就須要對插入語句進行必定的優化了。這個時候可使用INSERT DELAYED語句,該語句是當你發出插入請求的時候,部立刻就插入到數據庫而是放在緩存裏面,等待時機成熟以後再進行插入。
待補充。。。
1、概述
分表是個目前算是比較炒的比較流行的概念,特別是在大負載的狀況下,分表是一個良好分散數據庫壓力的好方法。
首先要了解爲何要分表,分表的好處是什麼。咱們先來大概瞭解如下一個數據庫執行SQL的過程:
接收到SQL --> 放入SQL執行隊列 --> 使用分析器分解SQL --> 按照分析結果進行數據的提取或者修改 --> 返回處理結果
固然,這個流程圖不必定正確,這只是我本身主觀意識上這麼我認爲。那麼這個處理過程中,最容易出現問題的是什麼?就是說,若是前一個SQL沒有執行完畢的話,後面的SQL是不會執行的,由於爲了保證數據的完整性,必須對數據表文件進行鎖定,包括共享鎖和獨享鎖兩種鎖定。共享鎖是在鎖定的期間,其它線程也能夠訪問這個數據文件,可是不容許修改操做,相應的,獨享鎖就是整個文件就是歸一個線程全部,其它線程沒法訪問這個數據文件。通常MySQL中最快的存儲引擎MyISAM,它是基於表鎖定的,就是說若是一鎖定的話,那麼整個數據文件外部都沒法訪問,必須等前一個操做完成後,才能接收下一個操做,那麼在這個前一個操做沒有執行完成,後一個操做等待在隊列裏沒法執行的狀況叫作阻塞,通常咱們通俗意義上叫作「鎖表」。
鎖表直接致使的後果是什麼?就是大量的SQL沒法當即執行,必須等隊列前面的SQL所有執行完畢才能繼續執行。這個沒法執行的SQL就會致使沒有結果,或者延遲嚴重,影響用戶體驗。
特別是對於一些使用比較頻繁的表,好比SNS系統中的用戶信息表、論壇系統中的帖子表等等,都是訪問量大很大的表,爲了保證數據的快速提取返回給用戶,必須使用一些處理方式來解決這個問題,這個就是我今天要聊到的分表技術。
分表技術顧名思義,就是把若干個存儲相同類型數據的表分紅幾個表分表存儲,在提取數據的時候,不一樣的用戶訪問不一樣的表,互不衝突,減小鎖表的概率。好比,目前保存用戶分表有兩個表,一個是user_1表,還有一個是 user_2 表,兩個表保存了不一樣的用戶信息,user_1 保存了前10萬的用戶信息,user_2保存了後10萬名用戶的信息,如今若是同時查詢用戶 heiyeluren1 和 heiyeluren2 這個兩個用戶,那麼就是分表從不一樣的表提取出來,減小鎖表的可能。
我下面要講述的兩種分表方法我本身都沒有實驗過,不保證準確能用,只是提供一個設計思路。下面關於分表的例子我假設是在一個貼吧系統的基礎上來進行處理和構建的。(若是沒有用過貼吧的用戶趕忙Google一下)
2、基於基礎表的分表處理
這個基於基礎表的分表處理方式大體的思想就是:一個主要表,保存了全部的基本信息,若是某個項目須要找到它所存儲的表,那麼必須從這個基礎表中查找出對應的表名等項目,好直接訪問這個表。若是以爲這個基礎錶速度不夠快,能夠徹底把整個基礎表保存在緩存或者內存中,方便有效的查詢。
咱們基於貼吧的狀況,構建假設以下的3張表:
1. 貼吧版塊表: 保存貼吧中版塊的信息
2. 貼吧主題表:保存貼吧中版塊中的主題信息,用於瀏覽
3. 貼吧回覆表:保存主題的原始內容和回覆內容
「貼吧版塊表」包含以下字段:
版塊ID board_id int(10)
版塊名稱 board_name char(50)
子表ID table_id smallint(5)
產生時間 created datetime
「貼吧主題表」包含以下字段:
主題ID topic_id int(10)
主題名稱 topic_name char(255)
版塊ID board_id int(10)
建立時間 created datetime
「貼吧回覆表」的字段以下:
回覆ID reply_id int(10)
回覆內容 reply_text text
主題ID topic_id int(10)
版塊ID board_id int(10)
建立時間 created datetime
那麼上面保存了咱們整個貼吧中的表結構信息,三個表對應的關係是:
版塊 --> 多個主題
主題 --> 多個回覆
那麼就是說,表文件大小的關係是:
版塊表文件 < 主題表文件 < 回覆表文件
因此基本能夠肯定須要對主題表和回覆表進行分表,已增長咱們數據檢索查詢更改時候的速度和性能。
看了上面的表結構,會明顯發現,在「版塊表」中保存了一個"table_id"字段,這個字段就是用於保存一個版塊對應的主題和回覆都是分表保存在什麼表裏的。
好比咱們有一個叫作「PHP」的貼吧,board_id是1,子表ID也是1,那麼這條記錄就是:
board_id | board_name | table_id | created
1 | PHP | 1 | 2007-01-19 00:30:12
相應的,若是我須要提取「PHP」吧裏的全部主題,那麼就必須按照表裏保存的table_id來組合一個存儲了主題的表名稱,好比咱們主題表的前綴是「topic_」,那麼組合出來「PHP」吧對應的主題表應該是:「topic_1」,那麼咱們執行:
SELECT * FROM topic_1 WHERE board_id = 1 ORDER BY topic_id DESC LIMIT 10
這樣就可以獲取這個主題下面回覆列表,方便咱們進行查看,若是須要查看某個主題下面的回覆,咱們能夠繼續使用版塊表中保存的「table_id」來進行查詢。好比咱們回覆表的前綴是「reply_」,那麼就能夠組合出「PHP」吧的ID爲1的主題的回覆:
SELECT * FROM reply_1 WHERE topic_id = 1 ORDER BY reply_id DESC LIMIT 10
這裏,咱們可以清晰的看到,其實咱們這裏使用了基礎表,基礎表就是咱們的版塊表。那麼相應的,確定會說:基礎表的數據量大了之後如何保證它的速度和效率?
固然,咱們就必須使得這個基礎表保持最好的速度和性能,好比,能夠採用MySQL的內存表來存儲,或者保存在內存當中,好比Memcache之類的內存緩存等等,能夠按照實際狀況來進行調整。
通常基於基礎表的分表機制在SNS、交友、論壇等Web2.0網站中是個比較不錯的解決方案,在這些網站中,徹底能夠單獨使用一個表來來保存基本標識和目標表之間的關係。使用表保存對應關係的好處是之後擴展很是方便,只須要增長一個表記錄。
【優點】增長刪除節點很是方便,爲後期升級維護帶來很大便利
【劣勢】須要增長表或者對某一個表進行操做,仍是沒法離開數據庫,會產生瓶頸
3、基於Hash算法的分表處理
咱們知道Hash表就是經過某個特殊的Hash算法計算出的一個值,這個值必須是唯一的,而且可以使用這個計算出來的值查找到須要的值,這個叫作哈希表。
咱們在分表裏的hash算法跟這個思想相似:經過一個原始目標的ID或者名稱經過必定的hash算法計算出數據存儲表的表名,而後訪問相應的表。
繼續拿上面的貼吧來講,每一個貼吧有版塊名稱和版塊ID,那麼這兩項值是固定的,而且是唯一的,那麼咱們就能夠考慮經過對這兩項值中的一項進行一些運算得出一個目標表的名稱。
如今假如咱們針對咱們這個貼吧系統,假設系統最大容許1億條數據,考慮每一個表保存100萬條記錄,那麼整個系統就不超過100個表就可以容納。按照這個標準,咱們假設在貼吧的版塊ID上進行hash,得到一個key值,這個值就是咱們的表名,而後訪問相應的表。
咱們構造一個簡單的hash算法:
function get_hash($id){
$str = bin2hex($id);
$hash = substr($str, 0, 4);
if (strlen($hash)<4){
$hash = str_pad($hash, 4, "0");
}
return $hash;
}
算法大體就是傳入一個版塊ID值,而後函數返回一個4位的字符串,若是字符串長度不夠,使用0進行補全。
好比:get_hash(1),輸出的結果是「3100」,輸入:get_hash(23819),獲得的結果是:3233,那麼咱們通過簡單的跟表前綴組合,就可以訪問這個表了。那麼咱們須要訪問ID爲1的內容時候哦,組合的表將是:topic_3100、reply_3100,那麼就能夠直接對目標表進行訪問了。
固然,使用hash算法後,有部分數據是可能在同一個表的,這一點跟hash表不一樣,hash表是儘可能解決衝突,咱們這裏不須要,固然一樣須要預測和分析表數據可能保存的表名。
若是須要存儲的數據更多,一樣的,能夠對版塊的名字進行hash操做,好比也是上面的二進制轉換成十六進制,由於漢字比數字和字母要多不少,那麼重複概率更小,可是可能組合成的表就更多了,相應就必須考慮一些其它的問題。
歸根結底,使用hash方式的話必須選擇一個好的hash算法,才能生成更多的表,然數據查詢的更迅速。
【優勢hash算法直接得出目標表名稱,效率很高】經過
【劣勢】擴展性比較差,選擇了一個hash算法,定義了多少數據量,之後只能在這個數據量上跑,不能超過過這個數據量,可擴展性稍差
4、其它問題
1. 搜索問題
如今咱們已經進行分表了,那麼就沒法直接對錶進行搜索,由於你沒法對可能系統中已經存在的幾十或者幾百個表進行檢索,因此搜索必須藉助第三方的組件來進行,好比Lucene做爲站內搜索引擎是個不錯的選擇。
2. 表文件問題
咱們知道MySQL的MyISAM引擎每一個表都會生成三個文件,*.frm、*.MYD、*.MYI 三個文件,分表用來保存表結構、表數據和表索引。Linux下面每一個目錄下的文件數量最好不要超過1000個,否則檢索數據將更慢,那麼每一個表都會生成三個文件,相應的若是分表超過300個表,那麼將檢索很是慢,因此這時候就必須再進行分,好比在進行數據庫的分離。
使用基礎表,咱們能夠新增長一個字段,用來保存這個表保存在什麼數據。使用Hash的方式,咱們必須截取hash值中第幾位來做爲數據庫的名字。這樣,無缺的解決這個問題。
5、總結
在大負載應用當中,數據庫一直是個很重要的瓶頸,必需要突破,本文講解了兩種分表的方式,但願對不少人可以有啓發的做用。固然,本文代碼和設想沒有通過任何代碼測試,因此沒法保證設計的徹底準確實用,具體仍是須要讀者在使用過程中認真分析實施。
文章寫的比較匆忙,質量可能沒法保證,遇到錯誤,不要見怪,歡迎提出批評指教,謝謝~~~~!