B-tree索引適合用於存儲排序的數據。對於這種數據類型須要定義大於、大於等於、小於、小於等於操做符。算法
一般狀況下,B-tree的索引記錄存儲在數據頁中。葉子頁中的記錄包含索引數據(keys)以及指向heap tuple記錄(即表的行記錄TIDs)的指針。內部頁中的記錄包含指向索引子頁的指針和子頁中最小值。sql
B-tree有幾點重要的特性:數據庫
一、B-tree是平衡樹,即每一個葉子頁到root頁中間有相同個數的內部頁。所以查詢任何一個值的時間是相同的。express
二、B-tree中一個節點有多個分支,即每頁(一般8KB)具備許多TIDs。所以B-tree的高度比較低,一般4到5層就能夠存儲大量行記錄。less
三、索引中的數據以非遞減的順序存儲(頁之間以及頁內都是這種順序),同級的數據頁由雙向鏈表鏈接。所以不須要每次都返回root,經過遍歷鏈表就能夠獲取一個有序的數據集。ide
下面是一個索引的簡單例子,該索引存儲的記錄爲整型並只有一個字段:函數
該索引最頂層的頁是元數據頁,該數據頁存儲索引root頁的相關信息。內部節點位於root下面,葉子頁位於最下面一層。向下的箭頭表示由葉子節點指向表記錄(TIDs)。post
例如經過"indexed-field = expression"形式的條件查詢49這個值。優化
root節點有三個記錄:(4,32,64)。從root節點開始進行搜索,因爲32≤ 49 < 64,因此選擇32這個值進入其子節點。經過一樣的方法繼續向下進行搜索一直到葉子節點,最後查詢到49這個值。spa
實際上,查詢算法遠不止看上去的這麼簡單。好比,該索引是非惟一索引時,容許存在許多相同值的記錄,而且這些相同的記錄不止存放在一個頁中。此時該如何查詢?咱們返回到上面的的例子,定位到第二層節點(32,43,49)。若是選擇49這個值並向下進入其子節點搜索,就會跳過前一個葉子頁中的49這個值。所以,在內部節點進行等值查詢49時,定位到49這個值,而後選擇49的前一個值43,向下進入其子節點進行搜索。最後,在底層節點中從左到右進行搜索。
(另一個複雜的地方是,查詢的過程當中樹結構可能會改變,好比分裂)
經過"indexed-field ≤ expression" (or "indexed-field ≥ expression")查詢時,首先經過"indexed-field = expression"形式進行等值(若是存在該值)查詢,定位到葉子節點後,再向左或向右進行遍歷檢索。
下圖是查詢 n ≤ 35的示意圖:
大於和小於能夠經過一樣的方法進行查詢。查詢時須要排除等值查詢出的值。
範圍查詢"expression1 ≤ indexed-field ≤ expression2"時,須要經過 "expression1 ≤ indexed-field =expression2"找到一匹配值,而後在葉子節點從左到右進行檢索,一直到不知足"indexed-field ≤ expression2" 的條件爲止;或者反過來,首先經過第二個表達式進行檢索,在葉子節點定位到該值後,再從右向左進行檢索,一直到不知足第一個表達式的條件爲止。
下圖是23 ≤ n ≤ 64的查詢示意圖:
下面是一個查詢計劃的實例。經過demo database中的aircraft表進行介紹。該表有9行數據,因爲整個表只有一個數據頁,因此執行計劃不會使用索引。爲了解釋說明問題,咱們使用整個表進行說明。
demo=# select * from aircrafts; aircraft_code | model | range ---------------+---------------------+------- 773 | Boeing 777-300 | 11100 763 | Boeing 767-300 | 7900 SU9 | Sukhoi SuperJet-100 | 3000 320 | Airbus A320-200 | 5700 321 | Airbus A321-200 | 5600 319 | Airbus A319-100 | 6700 733 | Boeing 737-300 | 4200 CN1 | Cessna 208 Caravan | 1200 CR2 | Bombardier CRJ-200 | 2700 (9 rows) demo=# create index on aircrafts(range); demo=# set enable_seqscan = off;
(更準確的方式:create index on aircrafts using btree(range),建立索引時默認構建B-tree索引。)
等值查詢的執行計劃:
demo=# explain(costs off) select * from aircrafts where range = 3000; QUERY PLAN --------------------------------------------------- Index Scan using aircrafts_range_idx on aircrafts Index Cond: (range = 3000) (2 rows)
非等值查詢的執行計劃:
demo=# explain(costs off) select * from aircrafts where range < 3000; QUERY PLAN --------------------------------------------------- Index Scan using aircrafts_range_idx on aircrafts Index Cond: (range < 3000) (2 rows)
範圍查詢的執行計劃:
demo=# explain(costs off) select * from aircrafts where range between 3000 and 5000; QUERY PLAN ----------------------------------------------------- Index Scan using aircrafts_range_idx on aircrafts Index Cond: ((range >= 3000) AND (range <= 5000)) (2 rows)
再次強調,經過index、index-only或bitmap掃描,btree訪問方法能夠返回有序的數據。所以若是表的排序條件上有索引,優化器會考慮如下方式:表的索引掃描;表的順序掃描而後對結果集進行排序。
當建立索引時能夠明確指定排序順序。以下所示,在range列上創建一個索引,而且排序順序爲降序:
demo=# create index on aircrafts(range desc);
本案例中,大值會出如今樹的左邊,小值出如今右邊。爲何有這樣的需求?這樣作是爲了多列索引。建立aircraft的一個視圖,經過range分紅3部分:
demo=# create view aircrafts_v as select model, case when range < 4000 then 1 when range < 10000 then 2 else 3 end as class from aircrafts; demo=# select * from aircrafts_v; model | class ---------------------+------- Boeing 777-300 | 3 Boeing 767-300 | 2 Sukhoi SuperJet-100 | 1 Airbus A320-200 | 2 Airbus A321-200 | 2 Airbus A319-100 | 2 Boeing 737-300 | 2 Cessna 208 Caravan | 1 Bombardier CRJ-200 | 1 (9 rows)
而後建立一個索引(使用下面表達式):
demo=# create index on aircrafts( (case when range < 4000 then 1 when range < 10000 then 2 else 3 end), model);
如今,能夠經過索引以升序的方式獲取排序的數據:
demo=# select class, model from aircrafts_v order by class, model; class | model -------+--------------------- 1 | Bombardier CRJ-200 1 | Cessna 208 Caravan 1 | Sukhoi SuperJet-100 2 | Airbus A319-100 2 | Airbus A320-200 2 | Airbus A321-200 2 | Boeing 737-300 2 | Boeing 767-300 3 | Boeing 777-300 (9 rows) demo=# explain(costs off) select class, model from aircrafts_v order by class, model; QUERY PLAN -------------------------------------------------------- Index Scan using aircrafts_case_model_idx on aircrafts (1 row)
一樣,能夠以降序的方式獲取排序的數據:
demo=# select class, model from aircrafts_v order by class desc, model desc; class | model -------+--------------------- 3 | Boeing 777-300 2 | Boeing 767-300 2 | Boeing 737-300 2 | Airbus A321-200 2 | Airbus A320-200 2 | Airbus A319-100 1 | Sukhoi SuperJet-100 1 | Cessna 208 Caravan 1 | Bombardier CRJ-200 (9 rows) demo=# explain(costs off) select class, model from aircrafts_v order by class desc, model desc; QUERY PLAN ----------------------------------------------------------------- Index Scan BACKWARD using aircrafts_case_model_idx on aircrafts (1 row)
然而,若是一列以升序一列以降序的方式獲取排序的數據的話,就不能使用索引,只能單獨排序:
demo=# explain(costs off) select class, model from aircrafts_v order by class ASC, model DESC; QUERY PLAN ------------------------------------------------- Sort Sort Key: (CASE ... END), aircrafts.model DESC -> Seq Scan on aircrafts (3 rows)
(注意,最終執行計劃會選擇順序掃描,忽略以前設置的enable_seqscan = off。由於這個設置並不會放棄表掃描,只是設置他的成本----查看costs on的執行計劃)
如有使用索引,建立索引時指定排序的方向:
demo=# create index aircrafts_case_asc_model_desc_idx on aircrafts( (case when range < 4000 then 1 when range < 10000 then 2 else 3 end) ASC, model DESC); demo=# explain(costs off) select class, model from aircrafts_v order by class ASC, model DESC; QUERY PLAN ----------------------------------------------------------------- Index Scan using aircrafts_case_asc_model_desc_idx on aircrafts (1 row)
當使用多列索引時與列的順序有關的問題會顯示出來。對於B-tree,這個順序很是重要:頁中的數據先以第一個字段進行排序,而後再第二個字段,以此類推。
下圖是在range和model列上構建的索引:
固然,上圖這麼小的索引在一個root頁足以存放。可是爲了清晰起見,特地將其分紅幾頁。
從圖中可見,經過相似的謂詞class = 3(僅按第一個字段進行搜索)或者class = 3 and model = 'Boeing 777-300'(按兩個字段進行搜索)將很是高效。
然而,經過謂詞model = 'Boeing 777-300'進行搜索的效率將大大下降:從root開始,判斷不出選擇哪一個子節點進行向下搜索,所以會遍歷全部子節點向下進行搜索。這並不意味着永遠沒法使用這樣的索引----它的效率有問題。例如,若是aircraft有3個classes值,每一個class類中有許多model值,此時不得不掃描索引1/3的數據,這可能比全表掃描更有效。
可是,當建立以下索引時:
demo=# create index on aircrafts( model, (case when range < 4000 then 1 when range < 10000 then 2 else 3 end));
索引字段的順序會改變:
經過這個索引,model = 'Boeing 777-300'將會頗有效,但class = 3則沒這麼高效。
PostgreSQL的B-tree支持在NULLs上建立索引,能夠經過IS NULL或者IS NOT NULL的條件進行查詢。
考慮flights表,容許NULLs:
demo=# create index on flights(actual_arrival); demo=# explain(costs off) select * from flights where actual_arrival is null; QUERY PLAN ------------------------------------------------------- Bitmap Heap Scan on flights Recheck Cond: (actual_arrival IS NULL) -> Bitmap Index Scan on flights_actual_arrival_idx Index Cond: (actual_arrival IS NULL) (4 rows)
NULLs位於葉子節點的一端或另外一端,這依賴於索引的建立方式(NULLS FIRST或NULLS LAST)。若是查詢中包含排序,這就顯得很重要了:若是SELECT語句在ORDER BY子句中指定NULLs的順序索引構建的順序同樣(NULLS FIRST或NULLS LAST),就可使用整個索引。
下面的例子中,他們的順序相同,所以可使用索引:
demo=# explain(costs off) select * from flights order by actual_arrival NULLS LAST; QUERY PLAN -------------------------------------------------------- Index Scan using flights_actual_arrival_idx on flights (1 row)
下面的例子,順序不一樣,優化器選擇順序掃描而後進行排序:
demo=# explain(costs off) select * from flights order by actual_arrival NULLS FIRST; QUERY PLAN ---------------------------------------- Sort Sort Key: actual_arrival NULLS FIRST -> Seq Scan on flights (3 rows)
NULLs必須位於開頭才能使用索引:
demo=# create index flights_nulls_first_idx on flights(actual_arrival NULLS FIRST); demo=# explain(costs off) select * from flights order by actual_arrival NULLS FIRST; QUERY PLAN ----------------------------------------------------- Index Scan using flights_nulls_first_idx on flights (1 row)
像這樣的問題是由NULLs引發的而不是沒法排序,也就是說NULL和其餘這比較的結果沒法預知:
demo=# \pset null NULL demo=# select null < 42; ?column? ---------- NULL (1 row)
這和B-tree的概念背道而馳而且不符合通常的模式。然而NULLs在數據庫中扮演者很重要的角色,所以不得不爲NULL作特殊設置。
因爲NULLs能夠被索引,所以即便表上沒有任何標記也可使用索引。(由於這個索引包含表航記錄的全部信息)。若是查詢須要排序的數據,並且索引確保了所需的順序,那麼這多是由意義的。這種狀況下,查詢計劃更傾向於經過索引獲取數據。
下面介紹btree訪問方法的特性。
amname | name | pg_indexam_has_property --------+---------------+------------------------- btree | can_order | t btree | can_unique | t btree | can_multi_col | t btree | can_exclude | t
能夠看到,B-tree可以排序數據而且支持惟一性。同時還支持多列索引,可是其餘訪問方法也支持這種索引。咱們將在下次討論EXCLUDE條件。
name | pg_index_has_property ---------------+----------------------- clusterable | t index_scan | t bitmap_scan | t backward_scan | t
Btree訪問方法能夠經過如下兩種方式獲取數據:index scan以及bitmap scan。能夠看到,經過tree能夠向前和向後進行遍歷。
name | pg_index_column_has_property --------------------+------------------------------ asc | t desc | f nulls_first | f nulls_last | t orderable | t distance_orderable | f returnable | t search_array | t search_nulls | t
前四種特性指定了特定列如何精確的排序。本案例中,值以升序(asc)進行排序而且NULLs在後面(nulls_last)。也能夠有其餘組合。
search_array的特性支持向這樣的表達式:
demo=# explain(costs off) select * from aircrafts where aircraft_code in ('733','763','773'); QUERY PLAN ----------------------------------------------------------------- Index Scan using aircrafts_pkey on aircrafts Index Cond: (aircraft_code = ANY ('{733,763,773}'::bpchar[])) (2 rows)
returnable屬性支持index-only scan,因爲索引自己也存儲索引值因此這是合理的。下面簡單介紹基於B-tree的覆蓋索引。
前面討論了:覆蓋索引包含查詢所需的全部值,需不要再回表。惟一索引能夠成爲覆蓋索引。
假設咱們查詢所須要的列添加到惟一索引,新的組合惟一鍵可能再也不惟一,同一列上將須要2個索引:一個惟一,支持完整性約束;另外一個是非惟一,爲了覆蓋索引。這固然是低效的。
在咱們公司 Anastasiya Lubennikova @ lubennikovaav 改進了btree,額外的非惟一列能夠包含在惟一索引中。咱們但願這個補丁能夠被社區採納。實際上PostgreSQL11已經合了該補丁。
考慮表bookings:
demo=# begin; demo=# alter table bookings drop constraint bookings_pkey cascade; demo=# alter table bookings add primary key using index bookings_pkey2; demo=# alter table tickets add foreign key (book_ref) references bookings (book_ref); demo=# commit;
而後表結構:
demo=# \d bookings Table "bookings.bookings" Column | Type | Modifiers --------------+--------------------------+----------- book_ref | character(6) | not null book_date | timestamp with time zone | not null total_amount | numeric(10,2) | not null Indexes: "bookings_pkey2" PRIMARY KEY, btree (book_ref) INCLUDE (book_date) Referenced by: TABLE "tickets" CONSTRAINT "tickets_book_ref_fkey" FOREIGN KEY (book_ref) REFERENCES bookings(book_ref)
此時,這個索引能夠做爲惟一索引工做也能夠做爲覆蓋索引:
demo=# explain(costs off) select book_ref, book_date from bookings where book_ref = '059FC4'; QUERY PLAN -------------------------------------------------- Index Only Scan using bookings_pkey2 on bookings Index Cond: (book_ref = '059FC4'::bpchar) (2 rows)
衆所周知,對於大表,加載數據時最好不要帶索引;加載完成後再建立索引。這樣作不只提高效率還能節省空間。
建立B-tree索引比向索引中插入數據更高效。全部的數據大體上都已排序,而且數據的葉子頁已建立好,而後只需構建內部頁直到root頁構建成一個完整的B-tree。
這種方法的速度依賴於RAM的大小,受限於參數maintenance_work_mem。所以增大該參數值能夠提高速度。對於惟一索引,除了分配maintenance_work_mem的內存外,還分配了work_mem的大小的內存。
前面,提到PG須要知道對於不一樣類型的值調用哪一個函數,而且這個關聯方法存儲在哈希訪問方法中。一樣,系統必須找出如何排序。這在排序、分組(有時)、merge join中會涉及。PG不會將自身綁定到操做符名稱,由於用戶能夠自定義他們的數據類型並給出對應不一樣的操做符名稱。
例如bool_ops操做符集中的比較操做符:
postgres=# select amop.amopopr::regoperator as opfamily_operator, amop.amopstrategy from pg_am am, pg_opfamily opf, pg_amop amop where opf.opfmethod = am.oid and amop.amopfamily = opf.oid and am.amname = 'btree' and opf.opfname = 'bool_ops' order by amopstrategy; opfamily_operator | amopstrategy ---------------------+-------------- <(boolean,boolean) | 1 <=(boolean,boolean) | 2 =(boolean,boolean) | 3 >=(boolean,boolean) | 4 >(boolean,boolean) | 5 (5 rows)
這裏能夠看到有5種操做符,可是不該該依賴於他們的名字。爲了指定哪一種操做符作什麼操做,引入策略的概念。爲了描述操做符語義,定義了5種策略:
1 — less
2 — less or equal
3 — equal
4 — greater or equal
5 — greater
postgres=# select amop.amopopr::regoperator as opfamily_operator from pg_am am, pg_opfamily opf, pg_amop amop where opf.opfmethod = am.oid and amop.amopfamily = opf.oid and am.amname = 'btree' and opf.opfname = 'integer_ops' and amop.amopstrategy = 1 order by opfamily_operator; pfamily_operator ---------------------- <(integer,bigint) <(smallint,smallint) <(integer,integer) <(bigint,bigint) <(bigint,integer) <(smallint,integer) <(integer,smallint) <(smallint,bigint) <(bigint,smallint) (9 rows)
一些操做符族能夠包含幾種操做符,例如integer_ops包含策略1的幾種操做符:
正因如此,當比較類型在一個操做符族中時,不一樣類型值的比較,優化器能夠避免類型轉換。
文檔中提供了一個建立符合數值的新數據類型,以及對這種類型數據進行排序的操做符類。該案例使用C語言完成。但不妨礙咱們使用純SQL進行對比試驗。
建立一個新的組合類型:包含real和imaginary兩個字段
postgres=# create type complex as (re float, im float);
建立一個包含該新組合類型字段的表:
postgres=# create table numbers(x complex); postgres=# insert into numbers values ((0.0, 10.0)), ((1.0, 3.0)), ((1.0, 1.0));
如今有個疑問,若是在數學上沒有爲他們定義順序關係,如何進行排序?
已經定義好了比較運算符:
postgres=# select * from numbers order by x; x -------- (0,10) (1,1) (1,3) (3 rows)
默認狀況下,對於組合類型排序是分開的:首先比較第一個字段而後第二個字段,與文本字符串比較方法大體相同。可是咱們也能夠定義其餘的排序方式,例如組合數字能夠當作一個向量,經過模值進行排序。爲了定義這樣的順序,咱們須要建立一個函數:
postgres=# create function modulus(a complex) returns float as $$ select sqrt(a.re*a.re + a.im*a.im); $$ immutable language sql; //此時,使用整個函數系統的定義5種操做符: postgres=# create function complex_lt(a complex, b complex) returns boolean as $$ select modulus(a) < modulus(b); $$ immutable language sql; postgres=# create function complex_le(a complex, b complex) returns boolean as $$ select modulus(a) <= modulus(b); $$ immutable language sql; postgres=# create function complex_eq(a complex, b complex) returns boolean as $$ select modulus(a) = modulus(b); $$ immutable language sql; postgres=# create function complex_ge(a complex, b complex) returns boolean as $$ select modulus(a) >= modulus(b); $$ immutable language sql; postgres=# create function complex_gt(a complex, b complex) returns boolean as $$ select modulus(a) > modulus(b); $$ immutable language sql;
而後建立對應的操做符:
postgres=# create operator #<#(leftarg=complex, rightarg=complex, procedure=complex_lt); postgres=# create operator #<=#(leftarg=complex, rightarg=complex, procedure=complex_le); postgres=# create operator #=#(leftarg=complex, rightarg=complex, procedure=complex_eq); postgres=# create operator #>=#(leftarg=complex, rightarg=complex, procedure=complex_ge); postgres=# create operator #>#(leftarg=complex, rightarg=complex, procedure=complex_gt);
此時,能夠比較數字:
postgres=# select (1.0,1.0)::complex #<# (1.0,3.0)::complex; ?column? ---------- t (1 row)
除了整個5個操做符,還須要定義函數:小於返回-1;等於返回0;大於返回1。其餘訪問方法可能須要定義其餘函數:
postgres=# create function complex_cmp(a complex, b complex) returns integer as $$ select case when modulus(a) < modulus(b) then -1 when modulus(a) > modulus(b) then 1 else 0 end; $$ language sql;
建立一個操做符類:
postgres=# create operator class complex_ops default for type complex using btree as operator 1 #<#, operator 2 #<=#, operator 3 #=#, operator 4 #>=#, operator 5 #>#, function 1 complex_cmp(complex,complex); //排序結果: postgres=# select * from numbers order by x; x -------- (1,1) (1,3) (0,10) (3 rows) //可使用此查詢獲取支持的函數: postgres=# select amp.amprocnum, amp.amproc, amp.amproclefttype::regtype, amp.amprocrighttype::regtype from pg_opfamily opf, pg_am am, pg_amproc amp where opf.opfname = 'complex_ops' and opf.opfmethod = am.oid and am.amname = 'btree' and amp.amprocfamily = opf.oid; amprocnum | amproc | amproclefttype | amprocrighttype -----------+-------------+----------------+----------------- 1 | complex_cmp | complex | complex (1 row)
使用pageinspect插件觀察B-tree結構:
demo=# create extension pageinspect;
索引的元數據頁:
demo=# select * from bt_metap('ticket_flights_pkey'); magic | version | root | level | fastroot | fastlevel --------+---------+------+-------+----------+----------- 340322 | 2 | 164 | 2 | 164 | 2 (1 row)
值得關注的是索引level:不包括root,有一百萬行記錄的表其索引只須要2層就能夠了。
Root頁,即164號頁面的統計信息:
demo=# select type, live_items, dead_items, avg_item_size, page_size, free_size from bt_page_stats('ticket_flights_pkey',164); type | live_items | dead_items | avg_item_size | page_size | free_size ------+------------+------------+---------------+-----------+----------- r | 33 | 0 | 31 | 8192 | 6984 (1 row)
該頁中數據:
demo=# select itemoffset, ctid, itemlen, left(data,56) as data from bt_page_items('ticket_flights_pkey',164) limit 5; itemoffset | ctid | itemlen | data ------------+---------+---------+---------------------------------------------------------- 1 | (3,1) | 8 | 2 | (163,1) | 32 | 1d 30 30 30 35 34 33 32 33 30 35 37 37 31 00 00 ff 5f 00 3 | (323,1) | 32 | 1d 30 30 30 35 34 33 32 34 32 33 36 36 32 00 00 4f 78 00 4 | (482,1) | 32 | 1d 30 30 30 35 34 33 32 35 33 30 38 39 33 00 00 4d 1e 00 5 | (641,1) | 32 | 1d 30 30 30 35 34 33 32 36 35 35 37 38 35 00 00 2b 09 00 (5 rows)
第一個tuple指定該頁的最大值,真正的數據從第二個tuple開始。很明顯最左邊子節點的頁號是163,而後是323。反過來,可使用相同的函數搜索。
PG10版本提供了"amcheck"插件,該插件能夠檢測B-tree數據的邏輯一致性,使咱們提早探知故障。
https://habr.com/en/company/postgrespro/blog/443284/