返回ProxySQL系列文章:http://www.cnblogs.com/f-ck-need-u/p/7586194.htmlhtml
ProxySQL支持查詢緩存的功能,能夠將後端返回的結果集緩存在本身的內存中,在某查詢的緩存條目被清理(例如過時)以前,前端再發起一樣的查詢語句,將直接從緩存中取數據並返回給前端。如此一來,ProxySQL處理的性能會大幅提高,也會大幅減輕後端MySQL Server的壓力。前端
ProxySQL的查詢緩存功能由mysql_query_rules
表中的cache_ttl字段控制,該字段設置每一個規則對應的緩存時長,時間單位爲毫秒。mysql
當前端發送的SQL語句命中了某規則後(嚴格地說,是最後應用的那條規則,由於鏈式規則下會操做多個規則),若是這個規則同時還設置了"cache_ttl"字段的值,則這個SQL語句返回的結果將會被緩存必定時間,過時後將等待專門的線程(purge線程)來清理。算法
例如:sql
delete from mysql_query_rules; select * from stats_mysql_query_digest_reset where 1=0; insert into mysql_query_rules(rule_id,active,apply,destination_hostgroup,match_pattern,cache_ttl) values(1,1,1,10,"^select .* test1.t1",20000); load mysql query rules to runtime; save mysql query rules to disk; select rule_id,destination_hostgroup,match_pattern,cache_ttl from mysql_query_rules;
這表示匹配上述規則(查詢test1.t1表)的查詢結果集將在ProxySQL上緩存20秒。後端
能夠執行下面的語句進行測試,每一個語句循環執行10次:緩存
# 在bash下執行 proc="mysql -uroot -pP@ssword1! -h127.0.0.1 -P6033 -e" for ((i=0;i<10;i++));do $proc "select * from test1.t1;" $proc "select * from test1.t2;" $proc "select * from test2.t1;" $proc "select * from test2.t2;" done
再去查看規則統計表:bash
Admin> select * from stats_mysql_query_rules; +---------+------+ | rule_id | hits | +---------+------+ | 1 | 10 | <--rule_id=1的規則命中10次 +---------+------+ Admin> select hostgroup,count_star,sum_time,digest_text from stats_mysql_query_digest; +-----------+------------+----------+------------------------+ | hostgroup | count_star | sum_time | digest_text | +-----------+------------+----------+------------------------+ | -1 | 9 | 0 | select * from test1.t1 | <-- 9次,hg="-1" | 10 | 10 | 3640 | select * from test2.t1 | | 10 | 10 | 3686 | select * from test2.t2 | | 10 | 10 | 3986 | select * from test1.t2 | | 10 | 1 | 1236 | select * from test1.t1 | <-- 1次,hg="10" +-----------+------------+----------+------------------------+
其中,hostgroup=-1
表示從緩存中取數據。數據結構
從上面的結果中,能夠看出select * from test1.t1;
語句除了被正常路由到後端執行的一次外,其它9次都是直接從緩存中獲取數據的,且緩存取數據的語句執行總時間sum_time=0。app
並非全部的查詢結果都應該緩存,ProxySQL的緩存空間畢竟有限。因此頗有必要去stats_mysql_query_digest
表中找出哪些語句應該緩存:執行次數多、總執行時間長、平均執行時間長的語句都應該緩存。這些指標也是合理判斷讀、寫分離的指標。
ProxySQL雖然實現了查詢緩存功能,可是查詢緩存設計的還不夠完整,缺乏一些錦上添花的功能,例如能查詢到的緩存類指標比較少,控制緩存的方式也比較缺少。不過做者一直在努力改進,不斷完善。
如下是和查詢緩存有關的狀態變量:
Admin> SELECT * FROM stats_mysql_global WHERE Variable_Name LIKE '%Cache%'; +--------------------------+----------------+ | Variable_Name | Variable_Value | +--------------------------+----------------+ | Stmt_Cached | 0 | | Query_Cache_Memory_bytes | 0 | | Query_Cache_count_GET | 0 | | Query_Cache_count_GET_OK | 0 | | Query_Cache_count_SET | 0 | | Query_Cache_bytes_IN | 0 | | Query_Cache_bytes_OUT | 0 | | Query_Cache_Purged | 0 | | Query_Cache_Entries | 0 | +--------------------------+----------------+
各變量的意義以下:
沒法查詢當前緩存空間中的具體的緩存記錄信息。
以下圖:
ProxySQL經過變量mysql_query_cache_size_MB
控制爲查詢緩存開闢多大的空間,經過變量mysql-threshold_resultset_size
定義ProxySQL能緩存的單個最大結果集大小。
Admin> show variables like '%size%'; +--------------------------------+-----------+ | Variable_name | Value | +--------------------------------+-----------+ | mysql-eventslog_filesize | 104857600 | | mysql-threshold_resultset_size | 4194304 | <<<< | mysql-query_cache_size_MB | 256 | <<<< | mysql-stacksize | 1048576 | +--------------------------------+-----------+
ProxySQL經過SET調用將後端返回的結果集放進查詢緩存空間,經過GET調用從查詢緩存空間取出緩存數據返回給前端。當GET調用發現緩存記錄已過時,會將其放進purge隊列中。
purge線程會定時清理purge隊列中的過時記錄,還會定時掃描緩存空間以找出過時記錄。當查詢緩存空間已經滿了(mysql-query_cache_size_MB
),下一次SET調用也會觸發purge線程來清理已通過期的緩存記錄。因此,SET調用永遠不會失敗。但須要注意的是,若是已緩存內容佔用的緩存空間低於3%,則purge線程不會清理任何內容,即便它們已通過期了。
緩存記錄的數據結構以下:
key:value:length:expire_ms:access_ms:ref_count
其中:
username + schemaname + SQL statement
作hash運算獲得的值,這能夠保證用戶只會訪問到它本身的、指定schema的結果集。mysql-threshold_resultset_size
變量的緣由,超出該變量閾值的那部分額外結果集不會放進緩存。因此,後面的3個字段都是爲了讓緩存記錄過時而設計的。不過,目前ProxySQL還不支持根據access_ms來判斷是否清理,例如緩存空間已滿,且access_ms的時間已過去好久,但只要未過時,就不會被清理。這個字段多是爲之後的LRU(或其它相似緩存清理算法)作準備的。
每一個查詢緩存記錄的key是根據username + schemaname +SQL
作hash運算出來的,這裏的SQL是完整的包含參數SQL語句,而非參數化後的語句,若是SQL語句進行了重寫,則使用重寫後的完整的SQL語句參與hash運算。這很重要。
例如:
select * from tab where id between 10 and 20; select * from tab where id between 10 and 19; select * from tab where id=15; select * from tab where id between 10 and 19;
第一個語句會緩存id=10到id=20之間的結果集,但第二個語句和第三個語句不會從這個緩存記錄中取數據,而是從後端查詢後設置本身的緩存記錄,即便第二個語句參數化後的語句和第一個徹底同樣(它們是同一類語句,以下代碼所示),所須要的數據也已經被第一個語句緩存。第四個語句會命中第二個語句的緩存。
select * from tab where id between ? and ?
但由於第二個語句和第一個語句命中的規則是同一個,因此這類語句的執行總次數會遞增。
以下圖: