轉自:http://blog.chinaunix.net/uid-10073362-id-225057.htmlhtml
數據庫範式是數據庫設計中必不可少的知識,沒有對範式的理解,就沒法設計出高效率、優雅的數據庫。甚至設計出錯誤的數據庫。而想要理解並掌握範式卻並非那麼容易。教科書中通常以關係代數的方法來解釋數據庫範式。這樣作雖然可以十分準確的表達數據庫範式,但比較抽象,不太直觀,不便於理解,更難以記憶。
本文用較爲直白的語言介紹範式,旨在便於理解和記憶,這樣作可能會出現一些不精確的表述。但對於初學者應該是個不錯的入門。我寫下這些的目的主要是爲了增強記憶,其實我也比較菜,我但願當我對一些概念生疏的時候,回過頭來看看本身寫的筆記,能夠快速地進入狀態。若是你發現其中用錯誤,請指正。
下面開始進入正題:數據庫
1、基礎概念
要理解範式,首先必須對知道什麼是關係數據庫,若是你不知道,我能夠簡單的不能再簡單的說一下:關係數據庫就是用二維表來保存數據。表和表之間能夠……(省略10W字)。數據庫設計
而後你應該理解如下概念:函數
實體:現實世界中客觀存在並能夠被區別的事物。好比「一個學生」、「一本書」、「一門課」等等。值得強調的是這裏所說的「事物」不只僅是看得見摸得着的「東西」,它也能夠是虛擬的,好比說「老師與學校的關係」。ui
屬性:教科書上解釋爲:「實體所具備的某一特性」,因而可知,屬性一開始是個邏輯概念,好比說,「性別」是「人」的一個屬性。在關係數據庫中,屬性又是個物理概念,屬性能夠看做是「表的一列」。.net
元組:表中的一行就是一個元組。設計
份量:元組的某個屬性值。在一個關係數據庫中,它是一個操做原子,即關係數據庫在作任何操做的時候,屬性是「不可分的」。不然就不是關係數據庫了。3d
碼:表中能夠惟一肯定一個元組的某個屬性(或者屬性組),若是這樣的碼有不止一個,那麼你們都叫候選碼,咱們從候選碼中挑一個出來作老大,它就叫主碼。unix
全碼:若是一個碼包含了全部的屬性,這個碼就是全碼。htm
主屬性:一個屬性只要在任何一個候選碼中出現過,這個屬性就是主屬性。
非主屬性:與上面相反,沒有在任何候選碼中出現過,這個屬性就是非主屬性。
外碼:一個屬性(或屬性組),它不是碼,可是它別的表的碼,它就是外碼。
2、6個範式
好了,上面已經介紹了咱們掌握範式所須要的所有基礎概念,下面咱們就來說範式。首先要明白,範式的包含關係。一個數據庫設計若是符合第二範式,必定也符合第一範式。若是符合第三範式,必定也符合第二範式……
·第一範式(1NF):屬性不可分。
在前面已經介紹了屬性值的概念,咱們說,它是「不可分的」。而第一範式要求屬性也不可分。那麼它和屬性值不可分有什麼區別呢?給一個例子:
這個表中,屬性值「分」了。「電話」這個屬性裏對於「小明」屬性值分紅了兩個。
這兩種狀況都不知足第一範式。不知足第一範式的數據庫,不是關係數據庫!因此,咱們在任何關係數據庫管理系統中,作不出這樣的「表」來。針對上述狀況能夠作成這樣的表:這個表中,屬性 「分」了。也就是「電話」分爲了「手機」和「座機」兩個屬性。
·第二範式(2NF):符合1NF,而且,非主屬性徹底依賴於碼。(注意是徹底依賴不能是部分依賴,設有函數依賴W→A,若存在XW,有X→A成立,那麼稱W→A是局部依賴,不然就稱W→A是徹底函數依賴)
一個學生上一門課,必定是特定某個老師教。因此有(學生,課程)->老師;
一個學生上一門課,必定在特定某個教室。因此有(學生,課程)->教室;
一個學生上一門課,他老師的職稱能夠肯定。因此有(學生,課程)->老師職稱;
一個學生上一門課,必定是特定某個教材。因此有(學生,課程)->教材
一個學生上一門課,必定在特定時間。因此有(學生,課程)->上課時間
所以(學生,課程)是一個碼。
然而,一個課程,必定指定了某個教材,一年級語文確定用的是《小學語文1》,那麼就有課程->教材。(學生,課程)是個碼,課程卻決定了教材,這就叫作不徹底依賴,或者說部分依賴。出現這樣的狀況,就不知足第二範式!
有什麼很差嗎?你能夠想一想:
一、校長要新增長一門課程叫「微積分」,教材是《大學數學》,怎麼辦?學生還沒選課,而學生又是主屬性,主屬性不能空,課程怎麼記錄呢,教材記到哪呢? ……鬱悶了吧?(插入異常)
二、下學期沒學生學一年級語文(上)了,學一年級語文(下)去了,那麼表中將不存在一年級語文(上),也就沒了《小學語文1》。這時候,校長問:一年級語文(上)用的什麼教材啊?……鬱悶了吧?(刪除異常)
三、校長說:一年級語文(上)換教材,換成《大學語文》。有10000個學生選了這門課,改動好大啊!改累死了……鬱悶了吧?(修改/更新異常,在這裏你可能以爲直接把教材《小學語文1》替換成《大學語文》不就能夠了,可是替換操做雖然計算機運行速度很快,可是畢竟也要替換10000次,形成了很大的時間開銷)
那應該怎麼解決呢?投影分解,將一個表分解成兩個或若干個表
·第三範式(3NF):符合2NF,而且,消除傳遞依賴(也就是每一個非主屬性都不傳遞依賴於候選鍵,判斷傳遞函數依賴,指的是若是存在"A → B → C"的決定關係,則C傳遞函數依賴於A。)
上面的「學生上課新表」符合2NF,可是它有傳遞依賴!在哪呢?問題就出在「老師」和「老師職稱」這裏。一個老師必定能肯定一個老師職稱。(學生,課程)->老師->職稱。
有什麼問題嗎?想一想:
一、老師升級了,變教授了,要改數據庫,表中有N條,改了N次……(修改異常)
二、沒人選這個老師的課了,老師的職稱也沒了記錄……(刪除異常)
三、新來一個老師,還沒分配教什麼課,他的職稱記到哪?……(插入異常)
那應該怎麼解決呢?和上面同樣,投影分解:
·BC範式(BCNF):符合3NF,而且,主屬性不依賴於主屬性(也就是不存在任何字段對任一候選關鍵字段的傳遞函數依賴)
BC範式既檢查非主屬性,又檢查主屬性。當只檢查非主屬性時,就成了第三範式。知足BC範式的關係都必然知足第三範式。
還能夠這麼說:若一個關係達到了第三範式,而且它只有一個候選碼,或者它的每一個候選碼都是單屬性,則該關係天然達到BC範式。
給你舉個例子:假設倉庫管理關係表 (倉庫ID, 存儲物品ID, 管理員ID, 數量),且有一個管理員只在一個倉庫工做;一個倉庫能夠存儲多種物品。
這個數據庫表中存在以下決定關係:
(倉庫ID, 存儲物品ID) →(管理員ID, 數量)
(管理員ID, 存儲物品ID) → (倉庫ID, 數量)
因此,(倉庫ID, 存儲物品ID)和(管理員ID, 存儲物品ID)都是StorehouseManage的候選關鍵字,表中的惟一非關鍵字段爲數量,它是符合第三範式的。可是,因爲存在以下決定關係:
(倉庫ID) → (管理員ID)
(管理員ID) → (倉庫ID)
即存在關鍵字段決定關鍵字段的狀況,因此其不符合BCNF範式。它會出現以下異常狀況:
(1) 刪除異常:
當倉庫被清空後,全部"存儲物品ID"和"數量"信息被刪除的同時,"倉庫ID"和"管理員ID"信息也被刪除了。
(2) 插入異常:
當倉庫沒有存儲任何物品時,沒法給倉庫分配管理員。
(3) 更新異常:
若是倉庫換了管理員,則表中全部行的管理員ID都要修改。
把倉庫管理關係表分解爲二個關係表:
倉庫管理:StorehouseManage(倉庫ID, 管理員ID);
倉庫:Storehouse(倉庫ID, 存儲物品ID, 數量)。
這樣的數據庫表是符合BCNF範式的,消除了刪除異常、插入異常和更新異常。
通常,一個數據庫設計符合3NF或BCNF就能夠了。在BC範式以上還有第四範式、第五範式。
·第四範式:要求把同一表內的多對多關係刪除。
·第五範式:從最終結構從新創建原始結構。
其實數據庫設計範式這方面重點掌握的就是1NF、2NF、3NF、BCNF
四種範式之間存在以下關係:
這裏主要區別3NF和BCNF,一句話就是3NF是要知足不存在非主屬性對候選碼的傳遞函數依賴,BCNF是要知足不存在任一屬性(包含非主屬性和主屬性)對候選碼的傳遞函數依賴。