海量數據處理之數據庫索引

時間 2019-11-09

原文原文鏈接

前言：本文第一部分討論數據庫的索引及其優化，主要以sql server爲例，第二部分咱們從Mysql討論它背後的數據結構和算法原理。

第一部分，數據庫索引及其優化

一，什麼是索引

　　數據庫索引比如是一本書前面的目錄，能加快數據庫的查詢速度。
　　例如這樣一個查詢：select * from table1 where id=44。若是沒有索引，必須遍歷整個表，直到ID等於44的這一行被找到爲止；有了索引以後(必須是在ID這一列上創建的索引)，直接在索引裏面找44（也就是在ID這一列找），就能夠得知這一行的位置，也就是找到了這一行。可見，索引是用來定位的。
　　索引分爲聚簇索引和非聚簇索引兩種，聚簇索引是按照數據存放的物理位置爲順序的，而非聚簇索引就不同了；顯然在一個基本表上最多隻能創建一個聚簇索引。創建聚簇索引後，更新該索引列上的數據時，每每致使表中記錄的物理順序的變動，代價較大，所以對於常常更新得列不宜創建聚簇索引，聚簇索引能提升多行檢索的速度，而非聚簇索引對於單行的檢索很快。創建一個聚簇索引如：算法

create cluster index id on Student(id);sql

二，概述

　　創建索引的目的是加快對錶中記錄的查找或排序。
　　爲表設置索引要付出代價的：一是增長了數據庫的存儲空間，二是在插入和修改數據時要花費較多的時間(由於索引也要隨之變更)。數據庫

精簡來講，索引是一種結構.在SQL Server中，索引和表（這裏指的是加了彙集索引的表）的存儲結構是同樣的,都是B樹，B樹是一種用於查找的平衡多叉樹.理解B樹的概念以下圖:數據結構

理解爲何使用B樹做爲索引和表（有彙集索引）的結構，首先須要理解SQL Server存儲數據的原理.數據結構和算法

在SQL SERVER中，存儲的單位最小是頁(PAGE),頁是不可再分的。就像細胞是生物學中不可再分的，或是原子是化學中不可再分的最小單位同樣.這意味着,SQL SERVER對於頁的讀取，要麼整個讀取，要麼徹底不讀取，沒有折中.函數

在數據庫檢索來講，對於磁盤IO掃描是最消耗時間的.由於磁盤掃描涉及不少物理特性，這些是至關消耗時間的。因此B樹設計的初衷是爲了減小對於磁盤的掃描次數。若是一個表或索引沒有使用B樹（對於沒有彙集索引的表是使用堆heap存儲),那麼查找一個數據，須要在整個表包含的數據庫頁中全盤掃描。這無疑會大大加劇IO負擔.而在SQL SERVER中使用B樹進行存儲，則僅僅須要將B樹的根節點存入內存，通過幾回查找後就能夠找到存放所需數據的被葉子節點包含的頁！進而避免的全盤掃描從而提升了性能.性能

下面，經過一個例子來證實：優化

在SQL SERVER中，表上若是沒有創建彙集索引，則是按照堆（HEAP）存放的，假設我有這樣一張表:spa

如今這張表上沒有任何索引，也就是以堆存放，我經過在其上加上彙集索引（以B樹存放）來展示對IO的減小:.net