數據庫的最簡單實現

 

全部應用軟件之中,數據庫多是最複雜的。數據庫

MySQL的手冊有3000多頁,PostgreSQL的手冊有2000多頁,Oracle的手冊更是比它們相加還要厚。數據結構

可是,本身寫一個最簡單的數據庫,作起來並不難。Reddit上面有一個帖子,只用了幾百個字,就把原理講清楚了。下面是我根據這個帖子整理的內容。優化

1、數據以文本形式保存

第一步,就是將所要保存的數據,寫入文本文件。這個文本文件就是你的數據庫。ui

爲了方便讀取,數據必須分紅記錄,每一條記錄的長度規定爲等長。好比,假定每條記錄的長度是800字節,那麼第5條記錄的開始位置就在3200字節。spa

大多數時候,咱們不知道某一條記錄在第幾個位置,只知道主鍵(primary key)的值。這時爲了讀取數據,能夠一條條比對記錄。可是這樣作效率過低,實際應用中,數據庫每每採用B樹(B-tree)格式儲存數據。操作系統

2、什麼是B樹?

要理解B樹,必須從二叉查找樹(Binary search tree)講起。設計

二叉查找樹

二叉查找樹是一種查找效率很是高的數據結構,它有三個特色。日誌

(1)每一個節點最多隻有兩個子樹。索引

(2)左子樹都爲小於父節點的值,右子樹都爲大於父節點的值。事務

(3)在n個節點中找到目標值,通常只須要log(n)次比較。

二叉查找樹的結構不適合數據庫,由於它的查找效率與層數相關。越處在下層的數據,就須要越屢次比較。極端狀況下,n個數據須要n次比較才能找到目標值。對於數據庫來講,每進入一層,就要從硬盤讀取一次數據,這很是致命,由於硬盤的讀取時間遠遠大於數據處理時間,數據庫讀取硬盤的次數越少越好。

B樹是對二叉查找樹的改進。它的設計思想是,將相關數據儘可能集中在一塊兒,以便一次讀取多個數據,減小硬盤操做次數。

B-tree

B樹的特色也有三個。

(1)一個節點能夠容納多個值。好比上圖中,最多的一個節點容納了4個值。

(2)除非數據已經填滿,不然不會增長新的層。也就是說,B樹追求"層"越少越好。

(3)子節點中的值,與父節點中的值,有嚴格的大小對應關係。通常來講,若是父節點有a個值,那麼就有a+1個子節點。好比上圖中,父節點有兩個值(7和16),就對應三個子節點,第一個子節點都是小於7的值,最後一個子節點都是大於16的值,中間的子節點就是7和16之間的值。

這種數據結構,很是有利於減小讀取硬盤的次數。假定一個節點能夠容納100個值,那麼3層的B樹能夠容納100萬個數據,若是換成二叉查找樹,則須要20層!假定操做系統一次讀取一個節點,而且根節點保留在內存中,那麼B樹在100萬個數據中查找目標值,只須要讀取兩次硬盤。

3、索引

數據庫以B樹格式儲存,只解決了按照"主鍵"查找數據的問題。若是想查找其餘字段,就須要創建索引(index)。

所謂索引,就是以某個字段爲關鍵字的B樹文件。假定有一張"僱員表",包含了員工號(主鍵)和姓名兩個字段。能夠對姓名創建索引文件,該文件以B樹格式對姓名進行儲存,每一個姓名後面是其在數據庫中的位置(即第幾條記錄)。查找姓名的時候,先從索引中找到對應第幾條記錄,而後再從表格中讀取。

這種索引查找方法,叫作"索引順序存取方法"(Indexed Sequential Access Method),縮寫爲ISAM。它已經有多種實現(好比C-ISAM庫和D-ISAM庫),只要使用這些代碼庫,就能本身寫一個最簡單的數據庫。

4、高級功能

部署了最基本的數據存取(包括索引)之後,還能夠實現一些高級功能。

(1)SQL語言是數據庫通用操做語言,因此須要一個SQL解析器,將SQL命令解析爲對應的ISAM操做。

(2)數據庫鏈接(join)是指數據庫的兩張表經過"外鍵",創建鏈接關係。你須要對這種操做進行優化。

(3)數據庫事務(transaction)是指批量進行一系列數據庫操做,只要有一步不成功,整個操做都不成功。因此須要有一個"操做日誌",以便失敗時對操做進行回滾。

(4)備份機制:保存數據庫的副本。

(5)遠程操做:使得用戶能夠在不一樣的機器上,經過TCP/IP協議操做數據庫。

相關文章
相關標籤/搜索