[翻譯]——MySQL 8.0 Histograms

時間 2019-11-08

標籤翻譯 mysql 8.0 histograms 欄目 MySQL 简体版

原文原文鏈接

前言：本文是對這篇博客MySQL 8.0 Histograms的翻譯，翻譯若有不當的地方，敬請諒解，請尊重原創和翻譯勞動成果，轉載的時候請註明出處。謝謝！html

英文原文地址：https://lefred.be/content/mysql-8-0-histograms/mysql

翻譯原文地址：http://www.javashuo.com/article/p-zngjbfny-m.htmlsql

在MySQL 8.0以前，MySQL缺失了其它關係數據庫中一個衆所周知的功能：優化器的直方圖數據庫

優化器團隊（Optimizer Team）在愈來愈多的MySQL DBA的呼聲中實現了這個功能。json

直方圖定義app

但什麼是直方圖呢？咱們來看維基百科的定義吧，直方圖是數值數據分佈的準確表示。對於RDBMS來講，直方圖是特定列內數據分佈的近似值。所以在MySQL中，直方圖可以幫助優化器找到最有效的執行計劃。less

直方圖例子優化

爲了說明直方圖是如何影響優化器工做的，我會用dbt3生成的數據來演示。ui

咱們準備了一個簡單查詢：spa

 
  SELECT * FROM orders   
   
    JOIN customer ON o_custkey = c_custkey  
   
  WHERE o_orderdate < '1993-01-01'  
   
    AND c_mktsegment = "AUTOMOBILE"\G

讓咱們看一下傳統的執行計劃的EXPLAIN輸出，以及可視化方式（VISUAL one)：

 
  mysql> EXPLAIN SELECT * FROM orders   
   
         JOIN customer ON o_custkey = c_custkey  
   
         WHERE o_orderdate < '1993-01-01' AND c_mktsegment = "AUTOMOBILE"\G 
   
  *************************** 1. row *************************** 
   
             id: 1 
   
    select_type: SIMPLE 
   
          table: customer 
   
     partitions: NULL 
   
           type: ALL 
   
  possible_keys: PRIMARY 
   
            key: NULL 
   
        key_len: NULL 
   
            ref: NULL 
   
           rows: 149050 
   
       filtered: 10.00 
   
          Extra: Using where 
   
  *************************** 2. row *************************** 
   
             id: 1 
   
    select_type: SIMPLE 
   
          table: orders 
   
     partitions: NULL 
   
           type: ref 
   
  possible_keys: i_o_custkey,i_o_orderdate 
   
            key: i_o_custkey 
   
        key_len: 5 
   
            ref: dbt3.customer.c_custkey 
   
           rows: 14 
   
       filtered: 30.62 
   
          Extra: Using where 
   
  2 rows in set, 1 warning (0.28 sec)

咱們看到MySQL首先對customer表作了一個全表掃描，而且它的選擇估計記錄（過濾）是10%；

接下來讓咱們運行這個查詢（我使用了COUNT(*)）,而後咱們來看看有多少行記錄

 
  mysql> SELECT count(*) FROM orders   
   
         JOIN customer ON o_custkey = c_custkey  
   
         WHERE o_orderdate < '1993-01-01' AND c_mktsegment = "AUTOMOBILE"\G 
   
  *************************** 1. row *************************** 
   
  count(*): 45127 
   
  1 row in set (49.98 sec)

建立直方圖

如今，我將在表customer上的字段c_mktsegment上建立一個直方圖

 
  mysql> ANALYZE TABLE customer UPDATE HISTOGRAM ON c_mktsegment WITH 1024 BUCKETS; 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | Table         | Op        | Msg_type | Msg_text                                                | 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | dbt3.customer | histogram | status   | Histogram statistics created for column 'c_mktsegment'. | 
   
  +---------------+-----------+----------+---------------------------------------------------------+

接下來，咱們來驗證查詢的執行計劃：

 
  mysql> EXPLAIN SELECT * FROM orders   
   
                 JOIN customer ON o_custkey = c_custkey  
   
                 WHERE o_orderdate < '1993-01-01' AND c_mktsegment = "AUTOMOBILE"\G 
   
  *************************** 1. row *************************** 
   
             id: 1 
   
    select_type: SIMPLE 
   
          table: orders 
   
     partitions: NULL 
   
           type: ALL 
   
  possible_keys: i_o_custkey,i_o_orderdate 
   
            key: NULL 
   
        key_len: NULL 
   
            ref: NULL 
   
           rows: 1494230 
   
       filtered: 30.62 
   
          Extra: Using where 
   
  *************************** 2. row *************************** 
   
             id: 1 
   
    select_type: SIMPLE 
   
          table: customer 
   
     partitions: NULL 
   
           type: eq_ref 
   
  possible_keys: PRIMARY 
   
            key: PRIMARY 
   
        key_len: 4 
   
            ref: dbt3.orders.o_custkey 
   
           rows: 1 
   
       filtered: 19.84 
   
          Extra: Using where 
   
  2 rows in set, 1 warning (1.06 sec)

如今，使用直方圖後，咱們能夠看到customer表的「吸引力」下降了，由於order表按條件過濾的行的百分比（30.62）幾乎是customer表按條件過濾行的百分比的兩倍（19.84%），這將致使低order表進行查找。

注意：這段感受沒有翻譯恰當，英文原文以下，若是感受翻譯比較生硬，參考原文

Now with the histogram we can see that it becomes less attractive to start with customer table since almost twice as many rows (19.84%) will cause look-ups into the order table.

優化器選擇對order表進行全表掃描（full sacn），此時執行計劃的代價看起來彷佛還高一些，，讓咱們看一下SQL的執行時間：

 
  mysql> SELECT count(*) FROM orders   
   
         JOIN customer ON o_custkey = c_custkey  
   
         WHERE o_orderdate < '1993-01-01' AND c_mktsegment = "AUTOMOBILE"\G 
   
  *************************** 1. row *************************** 
   
  count(*): 45127 
   
  1 row in set (6.35 sec)

SQL語句的執行時間更短，明顯比以前要快了

查看數據的分佈

直方圖數據存貯在Information_Schema.column_statistics表中，這個表的定義以下

 
  +-------------+-------------+------+-----+---------+-------+ 
   
  | Field       | Type        | Null | Key | Default | Extra | 
   
  +-------------+-------------+------+-----+---------+-------+ 
   
  | SCHEMA_NAME | varchar(64) | NO   |     | NULL    |       | 
   
  | TABLE_NAME  | varchar(64) | NO   |     | NULL    |       | 
   
  | COLUMN_NAME | varchar(64) | NO   |     | NULL    |       | 
   
  | HISTOGRAM   | json        | NO   |     | NULL    |       | 
   
  +-------------+-------------+------+-----+---------+-------+

它的一條記錄相似下面這樣：

 
  SELECT SCHEMA_NAME, TABLE_NAME, COLUMN_NAME, JSON_PRETTY(HISTOGRAM)  
   
  FROM information_schema.column_statistics  
   
  WHERE COLUMN_NAME = 'c_mktsegment'\G 
   
  *************************** 1. row *************************** 
   
             SCHEMA_NAME: dbt3 
   
              TABLE_NAME: customer 
   
             COLUMN_NAME: c_mktsegment 
   
  JSON_PRETTY(HISTOGRAM): { 
   
    "buckets": [ 
   
      [ 
   
        "base64:type254:QVVUT01PQklMRQ==", 
   
        0.19837010534684954 
   
      ], 
   
      [ 
   
        "base64:type254:QlVJTERJTkc=", 
   
        0.3983104750546611 
   
      ], 
   
      [ 
   
        "base64:type254:RlVSTklUVVJF", 
   
        0.5978433710991851 
   
      ], 
   
      [ 
   
        "base64:type254:SE9VU0VIT0xE", 
   
        0.799801232359372 
   
      ], 
   
      [ 
   
        "base64:type254:TUFDSElORVJZ", 
   
        1.0 
   
      ] 
   
    ], 
   
    "data-type": "string", 
   
    "null-values": 0.0, 
   
    "collation-id": 255, 
   
    "last-updated": "2018-03-02 20:21:48.271523", 
   
    "sampling-rate": 0.6709158000670916, 
   
    "histogram-type": "singleton", 
   
    "number-of-buckets-specified": 1024 
   
  }

並且能夠查看分佈

 
  SELECT FROM_BASE64(SUBSTRING_INDEX(v, ':', -1)) value, concat(round(c*100,1),'%') cumulfreq,  
   
         CONCAT(round((c - LAG(c, 1, 0) over()) * 100,1), '%') freq   
   
  FROM information_schema.column_statistics, JSON_TABLE(histogram->'$.buckets',  
   
       '$[*]' COLUMNS(v VARCHAR(60) PATH '$[0]', c double PATH '$[1]')) hist   
   
  WHERE schema_name  = 'dbt3' and table_name = 'customer' and column_name = 'c_mktsegment'; 
   
  +------------+-----------+-------+ 
   
  | value      | cumulfreq | freq  | 
   
  +------------+-----------+-------+ 
   
  | AUTOMOBILE | 19.8%     | 19.8% | 
   
  | BUILDING   | 39.9%     | 20.1% | 
   
  | FURNITURE  | 59.9%     | 19.9% | 
   
  | HOUSEHOLD  | 79.9%     | 20.1% | 
   
  | MACHINERY  | 100.0%    | 20.1% | 
   
  +------------+-----------+-------+

你也能夠用下面語法刪除直方圖信息。

 
  mysql> ANALYZE TABLE customer DROP HISTOGRAM on c_mktsegment; 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | Table         | Op        | Msg_type | Msg_text                                                | 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | dbt3.customer | histogram | status   | Histogram statistics removed for column 'c_mktsegment'. | 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  1 row in set (0.00 sec)

Buckets

你會注意到，當咱們建立一個直方圖時，咱們須要指定buckets的數量，事實上，數據被分紅包含特定值以及他們基數（cardinality）的一組Buckets，若是在上一個例子中檢查直方圖的類型，你會發現它是等寬直方圖（singleton）

"histogram-type": "singleton",

這種類型的直方圖最好的，由於基數是針對單個特定值。若是此次我僅使用2個存儲桶（buckets）來從新建立直方圖（請記住，在c_mktsegment列中有4個不一樣的值）：

 
  mysql> ANALYZE TABLE customer UPDATE HISTOGRAM ON c_mktsegment WITH 2 BUCKETS; 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | Table         | Op        | Msg_type | Msg_text                                                | 
   
  +---------------+-----------+----------+---------------------------------------------------------+ 
   
  | dbt3.customer | histogram | status   | Histogram statistics created for column 'c_mktsegment'. | 
   
  +---------------+-----------+----------+---------------------------------------------------------+

若是我檢查直方圖的類型：

 
  mysql> SELECT SCHEMA_NAME, TABLE_NAME, COLUMN_NAME,  
   
                JSON_PRETTY(HISTOGRAM)  
   
         FROM information_schema.column_statistics  
   
        WHERE COLUMN_NAME = 'c_mktsegment'\G 
   
  *************************** 1. row *************************** 
   
             SCHEMA_NAME: dbt3 
   
              TABLE_NAME: customer 
   
             COLUMN_NAME: c_mktsegment 
   
  JSON_PRETTY(HISTOGRAM): { 
   
    "buckets": [ 
   
      [ 
   
        "base64:type254:QVVUT01PQklMRQ==", 
   
        "base64:type254:RlVSTklUVVJF", 
   
        0.5996992690844636, 
   
        3 
   
      ], 
   
      [ 
   
        "base64:type254:SE9VU0VIT0xE", 
   
        "base64:type254:TUFDSElORVJZ", 
   
        1.0, 
   
        2 
   
      ] 
   
    ], 
   
    "data-type": "string", 
   
    "null-values": 0.0, 
   
    "collation-id": 255, 
   
    "last-updated": "2018-03-02 20:42:26.165898", 
   
    "sampling-rate": 0.6709158000670916, 
   
    "histogram-type": "equi-height", 
   
    "number-of-buckets-specified": 2 
   
  }