數據庫的最簡單實現

時間 2019-11-06

標籤數據庫最簡單實現欄目 SQL 简体版

原文原文鏈接

全部應用軟件之中，數據庫多是最複雜的。數據庫

MySQL的手冊有3000多頁，PostgreSQL的手冊有2000多頁，Oracle的手冊更是比它們相加還要厚。數據結構

可是，本身寫一個最簡單的數據庫，作起來並不難。Reddit上面有一個帖子，只用了幾百個字，就把原理講清楚了。下面是我根據這個帖子整理的內容。優化

1、數據以文本形式保存

第一步，就是將所要保存的數據，寫入文本文件。這個文本文件就是你的數據庫。ui

爲了方便讀取，數據必須分紅記錄，每一條記錄的長度規定爲等長。好比，假定每條記錄的長度是800字節，那麼第5條記錄的開始位置就在3200字節。spa

大多數時候，咱們不知道某一條記錄在第幾個位置，只知道主鍵（primary key）的值。這時爲了讀取數據，能夠一條條比對記錄。可是這樣作效率過低，實際應用中，數據庫每每採用B樹（B-tree）格式儲存數據。操作系統

2、什麼是B樹？

要理解B樹，必須從二叉查找樹（Binary search tree）講起。設計

二叉查找樹是一種查找效率很是高的數據結構，它有三個特色。日誌

（1）每一個節點最多隻有兩個子樹。索引

（2）左子樹都爲小於父節點的值，右子樹都爲大於父節點的值。事務

（3）在n個節點中找到目標值，通常只須要log(n)次比較。

二叉查找樹的結構不適合數據庫，由於它的查找效率與層數相關。越處在下層的數據，就須要越屢次比較。極端狀況下，n個數據須要n次比較才能找到目標值。對於數據庫來講，每進入一層，就要從硬盤讀取一次數據，這很是致命，由於硬盤的讀取時間遠遠大於數據處理時間，數據庫讀取硬盤的次數越少越好。

B樹是對二叉查找樹的改進。它的設計思想是，將相關數據儘可能集中在一塊兒，以便一次讀取多個數據，減小硬盤操做次數。

B樹的特色也有三個。

（1）一個節點能夠容納多個值。好比上圖中，最多的一個節點容納了4個值。

（2）除非數據已經填滿，不然不會增長新的層。也就是說，B樹追求"層"越少越好。

（3）子節點中的值，與父節點中的值，有嚴格的大小對應關係。通常來講，若是父節點有a個值，那麼就有a+1個子節點。好比上圖中，父節點有兩個值（7和16），就對應三個子節點，第一個子節點都是小於7的值，最後一個子節點都是大於16的值，中間的子節點就是7和16之間的值。

這種數據結構，很是有利於減小讀取硬盤的次數。假定一個節點能夠容納100個值，那麼3層的B樹能夠容納100萬個數據，若是換成二叉查找樹，則須要20層！假定操做系統一次讀取一個節點，而且根節點保留在內存中，那麼B樹在100萬個數據中查找目標值，只須要讀取兩次硬盤。