海量數據處理之數據庫索引

前言:本文第一部分討論數據庫的索引及其優化,主要以sql server爲例,第二部分咱們從Mysql討論它背後的數據結構和算法原理。

第一部分,數據庫索引及其優化

一,什麼是索引

  數據庫索引比如是一本書前面的目錄,能加快數據庫的查詢速度。
  例如這樣一個查詢:select * from table1 where id=44。若是沒有索引,必須遍歷整個表,直到ID等於44的這一行被找到爲止;有了索引以後(必須是在ID這一列上創建的索引),直接在索引裏面找44(也就是在ID這一列找),就能夠得知這一行的位置,也就是找到了這一行。可見,索引是用來定位的。
  索引分爲聚簇索引和非聚簇索引兩種,聚簇索引 是按照數據存放的物理位置爲順序的,而非聚簇索引就不同了;顯然在一個基本表上最多隻能創建一個聚簇索引。創建聚簇索引後,更新該索引列上的數據時,每每致使表中記錄的物理順序的變動,代價較大,所以對於常常更新得列不宜創建聚簇索引,聚簇索引能提升多行檢索的速度,而非聚簇索引對於單行的檢索很快。創建一個聚簇索引如:算法

create cluster index id on Student(id);sql

二,概述

  創建索引的目的是加快對錶中記錄的查找或排序。
  爲表設置索引要付出代價的:一是增長了數據庫的存儲空間,二是在插入和修改數據時要花費較多的時間(由於索引也要隨之變更)。數據庫

  精簡來講,索引是一種結構.在SQL Server中,索引和表(這裏指的是加了彙集索引的表)的存儲結構是同樣的,都是B樹,B樹是一種用於查找的平衡多叉樹.理解B樹的概念以下圖:數據結構

理解爲何使用B樹做爲索引和表(有彙集索引)的結構,首先須要理解SQL Server存儲數據的原理.數據結構和算法

在SQL SERVER中,存儲的單位最小是頁(PAGE),頁是不可再分的。就像細胞是生物學中不可再分的,或是原子是化學中不可再分的最小單位同樣.這意味着,SQL SERVER對於頁的讀取,要麼整個讀取,要麼徹底不讀取,沒有折中.函數

在數據庫檢索來講,對於磁盤IO掃描是最消耗時間的.由於磁盤掃描涉及不少物理特性,這些是至關消耗時間的。因此B樹設計的初衷是爲了減小對於磁盤的掃描次數。若是一個表或索引沒有使用B樹(對於沒有彙集索引的表是使用堆heap存儲),那麼查找一個數據,須要在整個表包含的數據庫頁中全盤掃描。這無疑會大大加劇IO負擔.而在SQL SERVER中使用B樹進行存儲,則僅僅須要將B樹的根節點存入內存,通過幾回查找後就能夠找到存放所需數據的被葉子節點包含的頁!進而避免的全盤掃描從而提升了性能.性能

下面,經過一個例子來證實:優化

在SQL SERVER中,表上若是沒有創建彙集索引,則是按照堆(HEAP)存放的,假設我有這樣一張表:spa

1

如今這張表上沒有任何索引,也就是以堆存放,我經過在其上加上彙集索引(以B樹存放)來展示對IO的減小:.net

2

3、理解彙集索引和非彙集索引

    在SQL SERVER中,最主要的兩類索引是彙集索引和非彙集索引。能夠看到,這兩個分類是圍繞彙集這個關鍵字進行的.那麼首先要理解什麼是彙集.

    彙集在索引中的定義:

    爲了提升某個屬性(或屬性組)的查詢速度,把這個或這些屬性(稱爲彙集碼)上具備相同值的元組集中存放在連的物理塊稱爲彙集。

    簡單來講,彙集索引就是:

    3

    在SQL SERVER中,彙集的做用就是將某一列(或是多列)的物理順序改變爲和邏輯順序相一致,好比,我從adventureworks數據庫的employee中抽取5條數據:

    4

    當我在ContactID上創建彙集索引時,再次查詢:

    5

    在SQL SERVER中,彙集索引的存儲是以B樹存儲,B樹的葉子直接存儲彙集索引的數據:

    grid.ai

    由於彙集索引改變的是其所在表的物理存儲順序,因此每一個表只能有一個彙集索引.

非彙集索引

     由於每一個表只能有一個彙集索引,若是咱們對一個表的查詢不只僅限於在彙集索引上的字段。咱們又對彙集索引列以外還有索引的要求,那麼就須要非彙集索引了.

     非彙集索引,本質上來講也是彙集索引的一種.非彙集索引並不改變其所在表的物理結構,而是額外生成一個彙集索引的B樹結構,但葉子節點是對於其所在表的引用,這個引用分爲兩種,若是其所在表上沒有彙集索引,則引用行號。若是其所在表上已經有了彙集索引,則引用匯集索引的頁.

     一個簡單的非彙集索引概念以下:

     6

     能夠看到,非彙集索引須要額外的空間進行存儲,按照被索引列進行彙集索引,並在B樹的葉子節點包含指向非彙集索引所在表的指針.

     MSDN中,對於非彙集索引描述圖是:

     grid.ai

     能夠看到,非彙集索引也是一個B樹結構,與彙集索引不一樣的是,B樹的葉子節點存的是指向堆或彙集索引的指針.

     經過非彙集索引的原理能夠看出,若是其所在表的物理結構改變後,好比加上或是刪除彙集索引,那麼全部非彙集索引都須要被重建,這個對於性能的損耗是至關大的。因此最好要先創建彙集索引,再創建對應的非彙集索引.

 

彙集索引 VS 非彙集索引

      前面經過對於彙集索引和非彙集索引的原理解釋.咱們不難發現,大多數狀況下,彙集索引的速度比非彙集索引要略快一些.由於彙集索引的B樹葉子節點直接存儲數據,而彙集索引還須要額外經過葉子節點的指針找到數據.

      還有,對於大量連續數據查找,非彙集索引十分乏力,由於非彙集索引須要在非彙集索引的B樹中找到每一行的指針,再去其所在表上找數據,性能所以會大打折扣.有時甚至不如不加非彙集索引.

      所以,大多數狀況下彙集索引都要快於非彙集索引。但彙集索引只能有一個,所以選對彙集索引所施加的列對於查詢性能提高相當緊要.

 第二部分 MySQL索引背後的數據結構及算法

這一部分能夠參考本博客前面轉的一篇MySQL索引背後的數據結構及算法原理(轉),爲了防止代碼重複這裏就給出函數調用便可.

相關文章
相關標籤/搜索