Mysql性能優化：如何給字符串加索引？

時間 2020-04-06

原文原文鏈接

導讀

現代大部分的登陸系統都支持郵箱、手機號碼登陸兩種方式，那麼如何在郵箱或者手機號碼這個字符串上創建索引才能保證性能最佳呢？
今天這篇文章就來探討一下在Mysql中如何給一個字符串加索引才能達到性能最佳。
本文首發於做者的微信公衆號【碼猿技術專欄】Mysql性能優化：如何給字符串加索引？,原創不易，喜歡的讀者關注一下，謝謝！！！
陳某將會從 什麼是前綴索引、 前綴索引和普通索引的比較、 如何建麗最佳性能的前綴索引、 前綴索引對覆蓋索引的影響這幾段來說。

前綴索引

顧名思義，對於列值較長，好比 BLOB、 TEXT、 VARCHAR，就 "必須" 使用 前綴索引，即將值的前一部分做爲索引。由於索引的存儲也是須要空間的，一樣索引太長維護起來也比較困難。
好比咱們給 User表中的郵箱添加前綴索引，以下:

alter table user add index index1(email(7));
複製代碼

上述語句將email的前7個字符做爲索引。

前綴索引和普通索引比較

咱們分別將 email的所有做爲索引和前7個字符做爲索引來看看在性能上有什麼差別。創建索引的語句以下：

alter table user add index index1(email);

alter table user add index index2(email(7));
複製代碼

假設有 user表中有這樣幾條數據(id,name,email)： (1,"陳某","chenmou1993@xxx")、 (2,"張某","chenmou1994@xxx")、 (3,"李某","chenmou1995@xxx")、 (4,"王某","chenmou1996@xxx")。
對應於index1和index2的索引樹以下兩張圖：

若是執行下面的查詢語句，Mysql如何利用索引來查詢呢？

select * from user where email="chenmou1995@xxx";
複製代碼

【1】普通索引的執行過程sql

從index1索引樹找到知足索引值是 chenmou1995@xxx的這條記錄，取得 id=2的值；
到主鍵上查到主鍵值是 id=2的行，判斷email的值是正確的，將這行記錄加入結果集；
取 index1索引樹上剛剛查到的位置的下一條記錄，發現已經不知足 email=chenmou1995@xxx的條件了，循環結束。

這個過程當中，只須要回主鍵索引取一次數據，因此係統認爲只掃描了一行。數據庫

【2】前綴索引的執行過程性能優化

從index2索引樹找到知足索引值是 chenmou的記錄，找到的第一個是id=1；
到主鍵上查到主鍵值是id=1的行，判斷出email的值不是 chenmou1995@xxx，這行記錄丟棄；
取index2上剛剛查到的位置的下一條記錄，發現仍然是 chenmou，取出id=2，再到ID索引上取整行而後判斷，此次值對了，將這行記錄加入結果集；
重複上一步，直到在idxe2上取到的值不是 chenmou時，循環結束。

在這個過程當中，要回主鍵索引取4次數據，也就是掃描了4行。bash

經過以上查詢的對比，很容易就能夠發現， 使用前綴索引後，可能會致使查詢語句讀數據的次數變多。
可是對於這個查詢語句來講，若是創建的前綴索引的長度爲13呢？那麼知足 chenmou1995的記錄只有一個，這樣就能夠直接定位到 id=2，此時不但空間縮小了，掃描的行數也減小了。
因而結論就來了： 使用前綴索引，只要定義好長度，就能夠作到既節省空間，又不用額外增長太多的查詢成本。
那麼如何創建正確的前綴索引才能達到最佳的性能呢？接着往下看................

如何創建最佳性能的前綴索引

經過上述的比較，能夠得出一個結論， 創建前綴索引的區分度越高越好，意味着重複的鍵值越少。
那麼如何統計區分度，其實很簡單，只須要判斷數據庫中重複的次數便可。sql以下：

select 
  count(distinct left(email,4)）as L4,
  count(distinct left(email,5)）as L5,
  count(distinct left(email,6)）as L6,
  count(distinct left(email,7)）as L7,
from user;
複製代碼

可是若是對於使用前綴區分度不太好的狀況，好比，咱們國家的身份證號，一共18位，其中前6位是地址碼，因此同一個縣的人的身份證號前6位通常會是相同的。這時候若是對身份證號作長度爲6的前綴索引的話，這個索引的區分度就很是低了。
按照咱們前面說的方法，可能你須要建立長度爲12以上的前綴索引，纔可以知足區分度要求。
可是，索引選取的越長，佔用的磁盤空間就越大，相同的數據頁能放下的索引值就越少，搜索的效率也就會越低。
那麼，若是咱們可以肯定業務需求裏面只有按照身份證進行等值查詢的需求，還有沒有別的處理方法呢？這種方法，既能夠佔用更小的空間，也能達到相同的查詢效率。如今簡單的介紹一種解決此種問題的方式，固然方法確定不止一種，以下：

【1】倒序存儲微信

若是你存儲身份證號的時候把它倒過來存，每次查詢的時候，你能夠這麼寫：session

select field_list from t where id_card = reverse('輸入的身份證號');
複製代碼

因爲身份證號的最後6位沒有地址碼這樣的重複邏輯，因此最後這6位極可能就提供了足夠的區分度。固然了，實踐中你不要忘記使用count(distinct)方法去作個驗證。性能

前綴索引對覆蓋索引的影響

前綴索引會致使覆蓋索引失效，查詢語句以下：

select id,name from user where email="chenmou1995@xxx";
複製代碼

因爲使用了前綴索引，所以必須會回表驗證查詢到的時候正確，此處使用了覆蓋索引也是無效的。
也就是說，使用前綴索引就用不上覆蓋索引對查詢性能的優化了，這也是你在選擇是否使用前綴索引時須要考慮的一個因素。

總結

如何給字符串加索引是一個須要考量的問題，陳某在這裏給出以下的建議：

若是字符串長度很短，建議直接用所有做爲索引。
使用前綴索引注意分析區分度，區分度越高越好。
使用前綴索引須要考慮覆蓋索引失效的問題。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。