隨着系統的運行,數據量變得愈來愈大,單純的將數據存儲在mysql中,已然不能知足查詢要求了,此時咱們引入Redis做爲查詢的緩存層,將業務中的熱數據保存到Redis,擴展傳統關係型數據庫的服務能力,用戶經過應用直接從Redis中快速獲取經常使用數據,或者在交互式應用中使用Redis保存活躍用戶的會話,均可以極大地下降後端關係型數據庫的負載,提高用戶體驗。php
使用傳統的redis client命令在大數據量的導入場景下存在以下缺陷:java
因爲redis是單線程模型,雖然避免了多線程下線程切換所耗費的時間,單一順序的執行命令也很快,可是在大批量數據導入的場景下,發送命令所花費的時間和接收服務器響應結果耗費的時間就會被放大。mysql
假如須要導入100萬條數據,那光是命令執行時間,就須要花費100萬*(t1 + t2)。redis
除了逐條命令發送,固然redis設計確定也會考慮這個問題,因此出現了pipelining管道模式。sql
可是pipelining在命令行中是沒有的,使得咱們又須要編寫新的處理代碼,來接收批量的響應。可是隻有不多不多的客戶端代碼支持,好比php-redis的擴展就不支持異步。docker
pipelining管道模式,其實就是減小了TCP鏈接的交互時間,當一批命令執行完畢後,一次性發送結果。shell
其實現原理是採用FIFO(先進先出)的隊列來保證數據的順序性。數據庫
只有一小部分客戶端支持非阻塞I/O,並非全部的客戶端都可以以一種有效的方式解析應答,以最大化吞吐量。segmentfault
因爲這些緣由,將龐大數據導入到Redis的首選方法是生成一個包含Redis協議數據格式,批量的發送過去。後端
nc是netcat的簡寫,nc的做用有:
(1)實現任意TCP/UDP端口的偵聽,增長-l參數後,nc能夠做爲server以TCP或UDP方式偵聽指定端口
(2)端口的掃描,nc能夠做爲client發起TCP或UDP鏈接
(3)機器之間傳輸文件
(4)機器之間網絡測速
然而,使用nc監聽並非一個很是可靠的方式來執行大規模的數據導入,由於netcat並不真正知道什麼時候傳輸了全部數據,也沒法檢查錯誤。在2.6或更高版本的Redis中,Redis -cli腳本支持一種稱爲pipe管道模式的新模式,這種模式是爲了執行大規模插入而設計的。
使用管道模式的命令運行以下:
由上圖,能夠看到pipe命令的返回結果,txt文件中有多少行命令,返回的replies數就是多少,
errors表示其中執行錯誤的命令條數。
協議的格式爲:
*<參數數量> \r\n $<參數 1 的字節數量> \r\n <參數 1 的數據> \r\n ... $<參數 N 的字節數量> \r\n <參數 N 的數據> \r\n
好比:
插入一條hash類型的數據。
HSET id book1 book_description1
根據Redis協議,總共有4個部分,因此開頭爲*4,其他內容解釋以下:
內容 | 長度 | 協議命令 |
---|---|---|
HSET | 4 | $4 |
id | 2 | $2 |
book1 | 5 | $5 |
book_description1 | 17 | $17 |
注意一下:HSET命令自己也做爲協議的其中一個參數來發送。
構造出來的協議數據結構:
*4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n 格式化一下: *4\r\n $4\r\n HSET\r\n $2\r\n idvvvv\r\n $5\r\n book1\r\n $17\r\n book_description1\r\n
Redis客戶機使用一種稱爲RESP (Redis序列化協議)的協議與Redis服務器通訊。
redis-cli pipe模式須要和nc命令同樣快,而且解決了nc命令不知道什麼時候命令結束的問題。
在發送數據的同時,它一樣會去讀取響應,嘗試去解析。
一旦輸入流中沒有讀取到更多的數據以後,它就會發送一個特殊的20比特的echo命令,標識最後一個命令已經發送完畢
若是在響應結果中匹配到這個相同數據後,說明本次批量發送是成功的。
使用這個技巧,咱們不須要解析發送給服務器的協議來了解咱們發送了多少命令,只須要解析應答便可。
在解析應答時,redis會對解析的應答進行一個計數,在最後可以告訴用戶大量插入會話向服務器傳輸的命令的數量。也就是上面咱們使用pipe模式實際操做的響應結果。
上面的例子中,咱們以一個txt文本爲輸入數據源,使用了pipe模式導入數據。
基於上述協議的學習和理解,咱們只須要將mysql中的數據按照既定的協議經過pipe模式導入Redis便可。
因爲環境限制,因此這裏沒有用真實數據來實現導入,那麼咱們就先使用一個存儲過程來造一百萬條數據把。使用存儲過程以下:
DELIMITER $$ USE `cb_mon`$$ DROP PROCEDURE IF EXISTS `test_insert`$$ CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`() BEGIN DECLARE i INT DEFAULT 1; WHILE i<= 1000000 DO INSERT INTO t_book(id,number,NAME,descrition) VALUES (i, CONCAT("00000",i) , CONCAT('book',i) , CONCAT('book_description',i)); SET i=i+1; END WHILE ; COMMIT; END$$ DELIMITER ;
調用存儲過程:
CALL test_insert();
查看錶數據:
按照上述redis協議,咱們使用以下sql來構造協議數據
SELECT CONCAT( "*4\r\n", "$", LENGTH(redis_cmd), "\r\n", redis_cmd, "\r\n", "$", LENGTH(redis_key), "\r\n", redis_key, "\r\n", "$", LENGTH(hkey), "\r\n", hkey, "\r\n", "$", LENGTH(hval), "\r\n", hval, "\r" ) FROM (SELECT "HSET" AS redis_cmd, id AS redis_key, NAME AS hkey, descrition AS hval FROM cb_mon.t_book ) AS t limit 1000000
並將內容保存至redis.sql 文件中。
編寫shell腳本。因爲我在主機上是經過docker安裝的redis和mysql,如下腳本供參考:
#!/bin/bash starttime=`date +'%Y-%m-%d %H:%M:%S'` docker exec -i 899fe01d4dbc mysql --default-character-set=utf8 --skip-column-names --raw < ./redis.sql | docker exec -i 4c90ef506acd redis-cli --pipe endtime=`date +'%Y-%m-%d %H:%M:%S'` start_seconds=$(date --date="$starttime" +%s); end_seconds=$(date --date="$endtime" +%s); echo "腳本執行耗時: "$((end_seconds-start_seconds))"s"
執行截圖:
能夠看到百萬級的數據導入redis,只花費了7秒,效率很是高。
若是mysql表特別大,能夠考慮分批導入,或者將表拆分,不然在導入過程當中可能會發生
lost connection to mysql server during query
因爲max_allowed_packed和超時時間限制,查詢數據的過程當中,可能會形成鏈接斷開,因此在數據表的數據量特別大的時候,須要分頁或者將表拆分導入。
本篇文章主要探討了,Mysql百萬級數據量級下,如何高效的遷移到Redis中去,逐步實現目標的過程當中,總結了以下幾點
hello,我是【俠夢的開發筆記】的號主,爲了方便你們學習討論,我建立了一個java疑難攻堅互助你們庭,和其餘傳統的學習交流不一樣。本羣主要致力於解決項目中的疑難問題,在遇到項目難以解決的 問題時,均可以在這個你們庭裏尋求幫助。 公衆號回覆【問題的答案】進入:java中Integer包裝類的基本數據類型是? 若是你也經歷過遇到項目難題,無從下手, 他人有可能能夠給你提供一些思路和見解,一百我的就有一百種思路, 一樣,若是你也樂於幫助別人,那解決別人遇到的問題,也一樣對你是一種鍛鍊。