我發起了一個 .Net 開源數據庫項目 SqlNet

時間 2019-11-10

標籤發起一個開源數據庫項目 sqlnet 欄目 SQL 简体版

原文原文鏈接

你們好，我發起了一個 .Net 開源數據庫項目 SqlNet 。html

項目計劃是用 C# 寫一個關係數據庫。算法

能夠先參考我以前寫的 2 篇文章：數據庫

談談數據庫原理 http://www.javashuo.com/article/p-twiqbcgi-cb.html架構

論數據庫 B Tree 索引在固態硬盤上的離散存儲 http://www.javashuo.com/article/p-dosbndbx-bs.html併發

根據上面說的， SqlNet 中的表數據和索引數據的存儲打算使用鏈式存儲（離散存儲）。分佈式

但這樣的作法是存在一些風險或者說可能的問題的。性能

由於現有的文件流驅動程序硬件控制指令硬件控制電路都是基於順序讀寫的模式來設計的，因此用順序讀寫架構下的指令來實現隨機讀寫，效率應該會有所下降。簡單的，咱們能夠這樣看，在現有的架構下，須要 2 個步驟來完成 1 次隨機讀寫： 1 設定流位置（Position）， 2 讀寫。而真正的隨機讀寫應該是像讀寫內存同樣在一個指令裏指定地址 + 數據， 1 個指令就完成對指定地址的讀寫。測試

這中間可能還有不少細節，不過這個要測試起來應該很麻煩，並且本身測試不必定準確，因此懶得測了，就按照這個設計開始吧。 ^ ^大數據

咱們能夠參考這篇文章：http://ssd.zol.com.cn/608/6082318.html 優化

這篇文章是固態硬盤性能測試報告，包括了連續讀連續寫隨機讀隨機寫，其中所說的「Intel 600P」的連續讀能夠達到 1800M/s ，連續寫能夠達到 500M/s ，隨機讀接近 480M/s ，隨機寫接近 400M/s 。因此。

文中的隨機讀和隨機寫是指「4K隨機讀」和「4K隨機寫」，就是說是以 4K 爲基本單位進行隨機讀寫，而咱們的數據庫的隨機讀寫的單位在 insert 的時候是行。一個欄位比較多的行，數據量多是 1K ，若是欄位比較多，欄位裏的內容也比較長（好比字符串比較長），那麼也很容易達到 4K 。因此 4K 做爲讀寫的最小單位進行的測試基本上跟咱們的數據庫的使用場景也差很少。固然 update 和 delete 的寫入數據量會比較小， update 只寫入更i新的欄位數據， delete 只修改行的上一行的 Next 指針，以及將本行標識爲已刪除。

不過這些我想不是問題，理論上，這些問題在將來均可以解決。將來出現專門用於固態硬盤隨機讀寫的文件流驅動程序硬件控制指令硬件控制電路就能夠了。

仔細再一想，固態硬盤作爲外部設備，先設置讀寫位置(Position) ，再批量讀寫，這個也是合理的。

這好像有點繞，哈哈哈哈。

總之，這麼說，現有的文件流驅動程序硬件控制指令硬件控制電路若是對 SqlNet 的支持還不是最優，那麼，隨着技術的發展，是能夠獲得優化的。

要採用鏈式存儲，就須要實現一個內存堆分配的機制。將數據文件（Data File）看做一個地址空間，在這個地址空間上實現一個堆機制。

堆機制能夠本身設計，不過先研究一下已有的實現原理，好比 C# , Java , C++ 的。

採用了鏈式存儲，就不須要使用傳統的數據塊（Data Block）的存儲方式了，固然相對的，須要實現一個堆機制。

可是仔細再一想，固態硬盤是一個外部設備，每一筆資料都要單獨讀取，這個性能消耗應該會比連續批量讀取大不少。

因此，我以爲仍是要採用傳統的 Data Block 的方式。

實際上， Data Block 自己就是線性表和鏈表二者的結合。 Data Block 是一個線性表，多個 Data Block 之間經過鏈表的方式鏈接起來。

因此，從這裏能夠看到， Data Block 的大小（Size）是一個關鍵。 Size 太大，則可能浪費過多的磁盤空間，同時 insert 時須要向後移動的行數也會不少。

Size 過小，則讀取的效率會下降，最壞的狀況就是退化成一個純粹的鏈表，好比每一個 Data Block 只包含一行。這樣就又恢復到「鏈式存儲」了。 ^^

什麼狀況下，每一個 Data Block 只包含一行呢？好比咱們設定每一個 Data Block 的大小是 4M ，若是 1行資料的大小接近 4M ，那麼，這個 Data Block 就只能包含 1 行的資料。

因此，從這裏能夠看出， Data Block 的 Size 須要根據 Table (Schema) 來決定。不一樣的 Table ， Data Block Size 是不同的。或者說， Data Block 應該叫作「Table Block」。

咱們在建立 Table 時會指定 Table Schema ，包括有哪些列，列的數據類型，根據這些咱們能夠計算出一行所需的最大空間，咱們設定， 1 個 Table Block 包含 1024 行，那麼，加入 1 行所需的最大空間是 4K ，那麼，這張 Table 的 Table Block Size 就應該是 4K * 1024 = 4M 。

這種作法會形成存儲空間的浪費，由於好比字符串類型的數據的長度是不定的，在傳統的數據庫中有 char , varchar , nchar , nvarchar 等 4 種類型表示字符串。

對於變長字符串，若是要兼顧到讀取查找插入更新的效率的話，狀況可能比較複雜。

不過咱們能夠先實現簡單的實現，好比，咱們能夠先只支持定長的 char 類型。

但，這樣根據 Table Schema 來決定 Table Block Size 的作法也有問題。在行 size 很大時，會產生一些問題。何時行 size 很大呢？好比列不少，或者列 size 很大，均可能致使行 size 很大。假設行 size 是 1 M ，根據上面的設定， 1 個 Table Block 應該有 1024 行， 1 個 Table Block 的大小就是 1M * 1024 = 1G 。

1 G 的 Table Block 看起來是挺大的，這會致使什麼問題呢？

在 insert 的時候，若是沒有彙集索引，新增一行就是將新行添加爲表的最後一行。若是有彙集索引（好比主鍵），會將新行根據索引排序插入到指定的位置。而插入會致使這個 Table Block 內在這個新行以後的全部行都向後移動（參考線性表的插入操做）。

1 G 的 Table Block 須要向後移動的數據量是很大的，若是新行插入的位置是比較靠近 Table Block 的開始位置，那麼須要向後移動的數據可能接近 1 G 。

還有在 update 的時候，對於長度可變的列，好比 varchar 或者 nvarchar 的列，新值若是比舊值的長度更長，一樣會向後移動數據。須要移動本行的 update 的列以後全部列的數據，以及本行以後全部行的數據。

同上，對於 1 G 的 Table Block ，若是 update 的位置靠近 Table Block 的開始位置，那麼須要向後移動的數據可能接近 1 G 。

因此，咱們仍是回到固定大小的 Table Block ，或者說 Data Block 。 ^^

對於固定大小的 Data Block ，首先 1 行的長度不容許超過 Data Block Size 。那麼，回到上面提出過的問題，當行 size 比較大時，可能 1 個 Data Block 只包含 1 行，此時，存儲結構將「退化」爲一個鏈表。但仔細一想，這並無關係，無論 1 個 Data Block 裏包含幾行， insert 和 update 時須要移動的數據最多接近 Data Block Size 。假設 Data Block Size 是 1 M ，那麼須要移動的數據最多接近 1 M 。

對於讀取效率，每次讀取的數據就是 1 個 Data Block ，即 1 M 。

綜上，存儲結構的設計就清楚了，而在這個存儲結構裏， Data Block Size 是一個關鍵參數。

我想咱們能夠設定 Data Block Size 爲 1 M 。

下面，咱們先來解決第 1 個問題，索引。

爲何索引是第一個問題呢？索引是高效查詢的基礎，若是表有彙集索引（好比主鍵），那麼彙集索引的存儲就是表數據的存儲。而主鍵是普遍使用的，甚至能夠說是必需的（見三大範式），根據主鍵查詢也是普遍使用的，因此索引是第 1 個問題，能夠說是數據庫的基礎。解決了索引的存儲檢索問題，也就解決了數據庫的存儲檢索問題。

我理解的 B Tree 索引：

實際上， B Tree 索引所表明的查詢原理是一種廣泛的索引原理，爲何叫「B Tree」，就不知道了。 ^^

B Tree 索引是一個樹形結構，但爲了可以從外部存儲器（磁盤）高效的讀取，咱們須要將 B Tree 索引順序的排列起來，存放到 Data Block 裏。

順序排列起來存放到 Data Block 裏的 B Tree 索引以下：

一個 Data Block 存放滿了，就存到下一個 Data Block 裏，上文說過， Data Block 之間經過鏈表的方式鏈接起來。或者說，一張表的數據，或者索引，就是一個 Data Block 做爲元素組成的鏈表。

B Tree 索引的效率如何呢？能夠看到，上面圖中的 B Tree 索引的每一個節點（索引項）有 4 個子節點，這大概叫作「4 階索引」。 4 階索引的檢索流程以下：

假如要檢索的內容是一箇中文字符，按 Unicode 存儲的話佔 2 個字節(Byte) ，對於 4 階索引來講，每次檢索 2 位(bit) ， 2 位表明了 4 種狀況： 00 , 01 , 10 , 11 。

2 個字節包含了 16 位，那麼就要檢索 16/2 = 8 次，（每一次檢索就是檢索一個 B Tree 節點(索引項)）。

若是要檢索的內容是一串字符，字符的長度是 64 個字節(Byte) ，至關因而 32 箇中文，那麼檢索次數是 (64 * 8) / 2 = 64 * 4 = 256 次。

因此 B Tree 索引的時間複雜度和行數無關，和檢索內容的長度有關。具體的說， B Tree 索引的時間複雜度是 O(length * 8 / 2) ， length 是檢索內容的長度（Byte 數）。

每次檢索（檢索一個索引項）須要判斷 4 種狀況： 00 , 01 , 10 , 11 ，若是每次檢索話費的時間是 4ns (4 納秒) ，那麼查找 32 箇中文的字符串的時間就是 256 * 4ns = 1024ns 約等於 1 微秒。

以此類推，查找長度爲 320 箇中文字符的字符串的時間是 1 微秒 * 10 = 10 微秒。

查找長度爲 3200 箇中文字符的字符串的時間是 1 微秒 * 100 = 100 微秒。

Sql Server 中的 nvarchar 類型長度可達 4000 ，就是說能夠存儲 4000 個中文字符。這個能夠做爲參考。

假設咱們的數據庫中某列的長度平均是 100 箇中文字符，用於查找該列的內容也是按平均 100 箇中文字符計算，按照上面的估算，能夠估算按照索引查找該列的時間約是 3.4 微秒，假設按 4 微秒算，那麼每秒查詢次數（QPS）能夠達到 25萬次 / 秒，呵呵呵，實際能不能達到這個效果，就不知道了。須要測試。

從這裏，咱們再次體會到，測試是一個專業，是和開發不可分割的一部分，和開發一塊兒組成軟件生產力。測試是 DevOps 的主幹力量。

等，我好像是第二次講上面這句話了。 -_- 第一次是在《Socket-Vs-WebSocket-TestTool》這篇文章裏： http://www.javashuo.com/article/p-kibwgbdb-u.html

上面的估算是針對一個 CPU 核的，若是 CPU 有多個核，好比 4 核，那麼 QPS 能夠達到 25萬 * 4 = 100萬次 / 秒，若是是 8 核，能夠達到 25萬 * 8 = 200萬次 / 秒。

B Tree 在某些場合會顯得比較「白癡」。好比只有一行數據，要檢索的列的長度比較長，好比 4000箇中文字符，檢索內容（查詢條件）也是 4000箇中文字符的字符串，根據上面的推算，以 4000個字符的字符串做爲查詢條件的檢索會花費比較長的時間。而若是是循環遍歷比較字符串的話，只需循環 1 次，比較 1 次字符串就能夠得出結果了。對於索引而言， 4000 個中文字符須要檢索 4000 * 2 * 8 / 2 = 3.2萬個索引項。天！

看起來索引跑了個馬拉松，而循環遍歷字符串只跑了 400米。

但仔細一想，字符串比較的時間花費跟字符串長度也有關係，對於 ASCII 碼的話，每一個字節(Byte)做一次比較，循環比較直到最後一個字符（若是中間有字符不一樣則可結束循環返回 false），對於 Unicode 的話，每 2 個字節做一次比較，能夠理解是 1 次 Int16 整數的比較，但也要循環比較 4000 次。

而從這又聯想到，對於大字符串的比較有沒有更優化的算法？咱們會想到計算 Hash ，能夠計算 2 個字符串的 Hash 值進行比較，若相同則表示字符串相同。但 Hash 計算至關因而對大整數的計算，具體的算法上可能也是會按 Byte 來計算，或者按 Int64(64位整數) 來計算，即對於大字符串，每次取 8 個字節(Byte) 來進行整數運算，以此來計算 Hash 。但即便每次取 8 個字節來計算，也要循環計算 1000 次。

因此。而後。

上述的效率對比問題在行數較少檢索內容長度較長的時候都存在。

索引，或者說 B Tree 索引，應該是普遍的應用於數據存儲管理的各類場合。好比操做系統的文件系統。

這一點，咱們會在《淺談操做系統原理》 http://www.javashuo.com/article/p-kfizjtdl-u.html 一文中探討，固然，如今這篇文章裏尚未具體內容。嘿嘿嘿。

到這裏，看起來，問題差很少解決了。但，還有一個問題，就是排序規則。

爲了讓數據按照人們習慣的排序方式排序，索引也須要按照人們習慣的排序方式排序，實際上，索引的排序規則，自己就是檢索規則。

因此排序規則是索引的重要組成部分。

好比，咱們的中文習慣按照音序排序，就像新華字典那樣。

那麼，要實現索引的排序和按排序規則檢索，要怎麼辦呢？

要實現排序規則，須要給字符編一個排序編碼，就像字符編碼（好比 Unicode）那樣。

和 Unicode 同樣，排序編碼也是 2 個字節，編碼是按照音序來，好比「啊」字大概是「0000 0000 0000 0001」吧！

不過上面假設是只包含中文的狀況，若是把字母和特殊字符包括進來，那字母和特殊字符應該會排在漢字前面。

那要怎麼知道這個字符的排序編碼是多少呢？須要一張 Unicode 和排序編碼的對照表。咱們把這個對照表稱爲排序編碼表。

這樣根據字符的 Unicode 能夠查找到對應的排序編碼。

排序編碼表也是一個 B Tree 索引。這樣能夠快速查找。

根據 Unicode 查找排序編碼， Unicode 的長度是 2 個字節，因此查找的時間花費是 8 * 2 / 2 = 8 ，即 O(8) 。

因此仍是很快的。

在有排序編碼的狀況下，索引其實是根據排序編碼創建，檢索也是根據排序編碼檢索，也就是說，索引項裏存的 2 位(bit) 數據都是排序編碼的 bit 。

字符的 Unicode 只有在索引最終指向的數據項纔會保存。

有了索引以後，就能夠開始寫數據庫引擎了，索引是數據庫的基礎。也是最基本單元。

首先，咱們能夠用索引來創建數據庫的元數據引擎。

元數據，就是有多少張表，每張表有哪些列，列的數據類型，表的起始 Data Block ，表有哪些索引，索引的起始 Data Block 等等。

數據庫要運做，首先要能高效的管理和查詢元數據。這是基礎。在這個基礎上，才能進行表和數據的存儲管理。

接下來，咱們要對 insert update 致使數據移動的問題進行一些優化。

上文不止一次的提到，在 insert 和 update 可變長類型（如 varchar , nvarchar）時會致使數據移動，咱們再來 Review 一下：

1 insert 會致使 Data Block 中插入的數據以後的數據所有要向後移動。

2 update 可變長類型若是新值比舊值長，會致使 Data Block 中舊值以後的數據所有要向後移動。

3 update 可變長類型若是新值比舊值短，會致使 Data Block 中舊值以後的數據所有要向前移動。

上面的 3 種狀況至關因而線性表的插入刪除操做。

這些狀況對性能的影響是挺大的。因此須要做一些改良。能夠引入一些「鏈式存儲」（鏈表）的特性，來彌補這部分不足。

好比 insert 一筆資料的時候，具體的舉例，好比，有一個 Data Block ，咱們稱之爲 Data Block 1 ，裏面存了 2 行， A 行和 C 行。現要在 A 行和 C 行之間插入 B 行，因爲 A 行 C 行的數據是順序連續的排列的，因此若是將 B 行數據插入在 A行和 C 行之間，就會須要 C 行數據向後移動，若是採用鏈表的方式，新建一個 Data Block （稱之爲 Data Block 2），將 B 行寫入 Data Block 2，讓 A 行的 Next 指針指向 Data Block 2 中的 B 行，同時讓 B 行的 Next 指針指向 Data Block 1 中的 C 行。這樣就能夠了。這裏的指針包含 2 個字段，一個是 Data Block 的位置，另外一個是數據在 Data Block 中的起始位置。這裏的「位置」是指文件流裏的「位置」這個概念（如 C# 中的 FileStream.Position 屬性）。 Data Block 的位置是指 Data Block 在數據文件（Data File）中的起始位置，數據在 Data Block 中的位置指數據的起始位置相對於 Data Block 起始位置的位置。

對於可變長類型，好比 varchar , nvarchar ，應採用指針的方式存儲，即可變長類型的值不保存在行中，而是獨立存儲，行經過指針指向值。在 update 時，若是新值的長度大於舊值，而舊值後面又連續存儲了其它數據，則應新申請一塊空間來存儲新值，並修改行內該列的指針，使指針指向新值的位置。新申請的空間可能在同一個 Data Block 裏，也可能在一個已有的 Data Block 的空閒空間（Free Space）裏，也可能會在一個新的 Data Block 裏。

若是包含指針的數據和指針指向的數據在同一個 Data Block ，那麼指針裏的 Data Block 位置字段能夠爲 -1 ，表示在同一個 Data Block 。所謂「包含指針的數據」是指好比行；「指針指向的數據」好比行的下一行，或者行的可變長類型列的值。

顯然，這樣會形成一些空閒空間（Free Space），或者「碎片」。

看起來咱們須要引入一些管理空閒空間（Free Space）的機制。能夠用一個空閒空間表（Free Space List）來管理 Free Space 。Free Space List 是一個線性表，長度設爲 10 ，就是說，最多隻保存 10 個 Free Space 。當有超過 10 個的 Free Space 產生時，若是新的 Free Space 的大小小於 Free Space List 中當前最小的 Free Space ，則不會添加到 Free Space List，若是大於，則會移除當前最小的 Free Space ，將新的 Free Space 添加進 Free Space List 。

在 insert update 須要寫入數據的時候，就到 Free Space List 裏查找大小足夠的 Free Space ，若找不到大小足夠的 Free Space ，則申請一個新的 Data Block 。

Free Space List 的每個表項描述一個 Free Space ，表項應包含 3 個字段， 1 Free Space 所在的 Data Block 的起始位置， 2 Free Space 的起始位置， 3 Free Space 的結束位置。 Free Space 的起始位置和結束位置是相對於 Data Block 起始位置的相對位置。

大量 delete 數據的時候會產生不少 Free Space ，若是隻保存 10 個 Free Space ，會形成大量存儲空間浪費。算了，仍是所有 Free Space 都保存吧，有多少保存多少。並且也不要線性表了，仍是用鏈表來做爲 Free Space List 。這就跟內存堆同樣了。關於內存堆，能夠參考我寫的另外一篇文章《漫談 C++ 的內存堆實現原理》 http://www.javashuo.com/article/p-huenfaog-bk.html 。

若是整個 Data Block 都空閒出來了，就直接歸還數據庫引擎，不須要再保存到 Free Space List 。

對於「碎片」，能夠經過 Job 的方式按期或不按期整理。

如今，在技術上，咱們還須要實現一個系統，或者說機制，或者說庫，或者說模塊，來實現將數據文件（Data File）裏的 Data Block 讀取到內存裏並構成對象圖（對象樹）以及將更新過的數據寫入數據文件對應的 Data Block 的對應的位置，或者將新建立的 Data Block 寫入數據文件。所謂對象圖（對象樹），就是上述的行與行，行與可變長類型列的值之間的鏈表關係（指針關係）。

好了，有了上述的這些，能夠開始寫數據庫了。

好的，咱們進一步來討論一下具體的作法。

咱們須要一個 DataManager 類和一個 DataBaseManager 類。

DataManager 負責底層的數據存取。 DataBaseManager 負責關係數據的管理（表索引 ……）。

DataBaseManager 會調用 DataManager 。

DataManager 要實現的，是一個相似內存映像或者虛擬內存的一個機制。將內存和數據文件（Data File），映射成一個虛擬的存儲空間。我將這個機制，稱爲「虛擬存儲」。

這樣， DataBaseManager 就能夠不須要考慮數據在內存和數據文件中存儲的細節而只需關注關係數據的管理便可。

DataManager 要實現內存映像或者虛擬內存，能夠這樣作，首先，定義一個數據存儲的單元，相似虛擬內存裏的頁，咱們能夠叫作 Data Block 。上文中也定義了 Data Block，不過如今的 Data Block 和上文的 Data Block 意義不同。上文的 Data Block 是關係數據層面的，好比一張表的數據會存在多個 Data Block 中，以及一行資料最大長度不能超過一個 Data Block 的大小等等。這些對於如今的 Data Block 來說，都不存在了。

因此，這就是大的架構。

結論： SqlNet 是基於離散存儲的新一代數據庫。離散存儲能夠解決大數據量大併發頻繁 insert 索引排序（移動）形成的瓶頸的問題。

SqlNet 的離散存儲基於虛擬存儲和堆。

有關於堆，我在《漫談 C++ 的內存堆實現原理》 http://www.javashuo.com/article/p-huenfaog-bk.html 一文中做了探討。

基於離散存儲的數據庫誕生的土壤是硬件的發展，以固態硬盤和大容量內存爲表明。

還有另外一個因素是關係數據庫的發展到了新的突破的時候了。

或者能夠這麼說，離散存儲使得關係數據庫向分佈式並行計算的方向發展更加可行和有效。