oracle三大範式(轉載)

時間 2019-12-01

原文原文鏈接

標準化表示從你的數據存儲中移去數據冗餘 (redundancy)的過程。若是數據庫設計達到了徹底的標準化，則把全部的表經過關鍵字鏈接在一塊兒時，不會出現任何數據的複本 (repetition)。標準化的優勢是明顯的，它避免了數據冗餘，天然就節省了空間，也對數據的一致性(consistency)提供了根本的保障，杜絕了數據不一致的現象，同時也提升了效率。

第一範式（1NF;The First Normal Form）

第一範式是最低的規範化要求，第一範式要求數據表不能存在重複的記錄，即存在一個關鍵字。1NF的第二個要求是每一個字段都不可再分，即已經分到最小，關係數據庫的定義就決定了數據庫知足這一條。主關鍵字達到下面幾個條件：
1．主關鍵字段在表中是惟一的
2．主關鍵字段中沒有複本
3．主關鍵字段不能存在空值
4．每條記錄都必須有一個主關鍵字
5．主關鍵字是關鍵字的最小子集

知足1NF的關係模式有許多沒必要要的重複值，而且增長了修改其數據時疏漏的可能性。爲了不這種數據冗餘和更新數據的遺漏，就引出了第二範式（2NF）。

第二範式（The Second Normal Form）

定義：若是一個關係屬於1NF，且全部的非主關鍵字段都徹底地依賴於主關鍵字，則稱之爲第二範式，簡記爲2NF。
爲了說明問題現舉一個例子來講明：有一個庫房存儲的庫有四個字段（零件號碼，倉庫號碼，零件數量，倉庫地址），
這個庫符合1NF，其中「零件號碼」和「倉庫號碼」構成主關鍵字。
可是由於「倉庫地址」只徹底依賴與「倉庫號碼」，即只依賴於主關鍵字的一部分，因此它不符合2NF，
這樣首先存在數據冗餘，由於倉庫數量可能很少。
其次，存在若是更改倉庫地址時，若是漏改了某一記錄，存在數據不一致性。
再次，若是某個倉庫的零件出完了，那麼這個倉庫地址就丟失了，即這種關係不容許存在某個倉庫中不放零件的狀況。
咱們能夠用投影分解的方法消除部分依賴的狀況，而使關係達到2NF的標準。
方法是從關係中分解出新的二維表，是每一個二維表中全部的非關鍵字都徹底依賴於各自的主關鍵字。
咱們能夠以下分解：分解成兩個表（零件號碼，倉庫號碼，零件數量）和（倉庫號碼，倉庫地址）。
這樣就徹底符合2NF了。

第三範式（The Third Normal Form）

定義：若是一個關係屬於2NF，且每一個非關鍵字不傳遞依賴於主關鍵字，這種關係是3NF。
從2NF中消除傳遞依賴，就是3NF。好比有一個表（姓名，工資等級，工資額），其中姓名是關鍵字，
此關係符合2NF，可是由於工資等級決定工資額，這就叫傳遞依賴，它不符合3NF，
咱們一樣可使用投影分解的辦法分解成兩個表：（姓名，工資等級），
（工資等級，工資額）。

一般狀況，規範化到3NF就知足須要了，規範化程度更高的還有BCNF，4NF，5NF，由於不經常使用，不做解釋和討論。它們下層都是上層的子集，規範辦法是：1NFà（消除非主屬性對關鍵字的部分函數依賴）à2NFà（消除非主屬性對關鍵字的傳遞函數依賴）à3NFà（消除主屬性對關鍵字的部分和傳遞依賴）àBCNFà（消除非平凡且非函數依賴的多值依賴）à4NFà（消除不爲候選關鍵字所隱含的鏈接依賴）à5NF。

投影分解
上面提到了投影分解方法，關係模式的規範化過程是經過投影分解來實現的。這種把低一級關係模式分解成若干高一級關係模式的投影分解不是惟一的，應在分解中注意知足三個條件：
1．無損鏈接分解，分解後不丟失信息
2．分解後得的每一關係都是高一級範式，不要同級甚至低級分解
3．分解的個數最少，這是完美要求，應作到儘可能少。

規範化的利弊
有一利必有一弊。規範化的優勢是明顯的。他避免了大量的數據冗餘，節省了空間，保持了數據的一致性，
若是徹底達到3NF，你不會在超過一個地方更改同一個值。若是你的記錄常常的改變，這個優勢回超過全部可能的缺點！
它最大的不利是，你把信息放置在不一樣的表中，增長了操做的難度，同時把多個錶鏈接在一塊兒的花費也是巨大
的（「時間空間互換理論」，此理論乃筆者杜撰，千萬別拿出去當論據！節省了時間必然付出空間的代價，反之，節省了空間也必然付出時間的代價，時間和空間在計算機領域中是一個矛盾統一體，它們互相做用，對立統一）。由於表和表的鏈接操做是作兩個關係的笛卡兒積（若是表一n條記錄，表二m條記錄，若是沒有任何連接條件的話，鏈接在一塊兒就是n*m條記錄，其數量是不可承受的，毋寧說大量的錶鏈接在一塊兒了），必然會產生大量無用甚至無效的記錄，性能的代價是巨大的。

非規範化（Denormalization）
即使你花費你全部的午休時間，做出一個徹底規範化的數據庫（你的大學教授能夠證實），它仍然不是完美的。規範化設計所帶來的性能問題可能你沒法承受。若是出現這種狀況，你就要準備進行非規範化了。非規範化就是你爲了得到性能上的利益所進行的違反規範化規則的操做，並無什麼魔法在裏面。它是一個性能利益分析，嘗試和再嘗試和不斷的再評估過程。它也有不少方法，不過大部分都與實際應用有關係，包括複製屬性，複製外來關鍵字，表合併，表從新組合等等，你能夠根據實際的應用選擇最有效的方法。

引言

　　數據庫的設計範式是數據庫設計所須要知足的規範，知足這些規範的數據庫是簡潔的、結構明晰的，同時，不會發生插入（insert）、刪除（delete）和更新（update）操做異常。反之則是亂七八糟，不只給數據庫的編程人員製造麻煩，並且面目可憎，可能存儲了大量不須要的冗餘信息。

　　設計範式是否是很難懂呢？非也，大學教材上給咱們一堆數學公式咱們固然看不懂，也記不住。因此咱們不少人就根本不按照範式來設計數據庫。

　　實質上，設計範式用很形象、很簡潔的話語就能說清楚，道明白。本文將對範式進行通俗地說明，並以筆者曾經設計的一個簡單論壇的數據庫爲例來說解怎樣將這些範式應用於實際工程。

　　範式說明

　　第一範式（1NF）：數據庫表中的字段都是單一屬性的，不可再分｛我的理解：就像一個家庭，有幾個兒子，其它的兒子都是由一個部份構成，惟獨有一個兒子須要兩個部份構成，即這就不是一個正常的家庭，呵呵，說得過度了｝。這個單一屬性由基本類型構成，包括整型、實數、字符型、邏輯型、日期型等。

　　例如，以下的數據庫表是符合第一範式的：

字段1	字段2	字段3	字段4

　　而這樣的數據庫表是不符合第一範式的：

字段1	字段2	字段3		字段4
		字段3.1	字段3.2

　　很顯然，在當前的任何關係數據庫管理系統（DBMS）中，傻瓜也不可能作出不符合第一範式的數據庫，由於這些DBMS不容許你把數據庫表的一列再分紅二列或多列。所以，你想在現有的DBMS中設計出不符合第一範式的數據庫都是不可能的。

　　第二範式（2NF）：數據庫表中不存在非關鍵字段對任一候選關鍵字段的部分函數依賴（部分函數依賴指的是存在組合關鍵字中的某些字段決定非關鍵字段的狀況），也即全部非關鍵字段都徹底依賴於任意一組候選關鍵字。｛我的理解：如在一個家庭裏面，任何決定都只能是爸爸、媽媽一致經過後纔可以算數，就說明是正常的;若是有一個女兒能夠只由媽媽決定作什麼，那麼這就違背了原則，就不知足約定。｝

　　假定選課關係表爲SelectCourse(學號, 姓名, 年齡, 課程名稱, 成績, 學分)，關鍵字爲組合關鍵字(學號, 課程名稱)，由於存在以下決定關係：

　　(學號, 課程名稱) → (姓名, 年齡, 成績, 學分)

　　這個數據庫表不知足第二範式，由於存在以下決定關係：

　　(課程名稱) → (學分)

　　(學號) → (姓名, 年齡)

　　即存在組合關鍵字中的字段決定非關鍵字的狀況。

　　因爲不符合2NF，這個選課關係表會存在以下問題：

　　(1) 數據冗餘：

　　同一門課程由n個學生選修，"學分"就重複n-1次；同一個學生選修了m門課程，姓名和年齡就重複了m-1次。

　　(2) 更新異常：

　　若調整了某門課程的學分，數據表中全部行的"學分"值都要更新，不然會出現同一門課程學分不一樣的狀況。

　　(3) 插入異常：

　　假設要開設一門新的課程，暫時尚未人選修。這樣，因爲尚未"學號"關鍵字，課程名稱和學分也沒法記錄入數據庫。

　　(4) 刪除異常：

　　假設一批學生已經完成課程的選修，這些選修記錄就應該從數據庫表中刪除。可是，與此同時，課程名稱和學分信息也被刪除了。很顯然，這也會致使插入異常。

　　把選課關係表SelectCourse改成以下三個表：

　　學生：Student(學號, 姓名, 年齡)；

　　課程：Course(課程名稱, 學分)；｛我的理解：能夠在該加上ID字段做爲主鍵，由於若是之後課程名稱有變更，再若是這個數據庫運行了10年，有1000萬次選課記錄，那麼你要去更新這一千萬條記錄，也算是一個費資源的問題。若是有了ID，無論你名稱怎麼變，都只會影響一條當前記錄｝

SelectCourse(學號, 課程名稱, 成績)。｛這裏相應就改成：SelectCourse(學號, 課程ID,成績)｝

這樣的數據庫表是符合第二範式的，消除了數據冗餘、更新異常、插入異常和刪除異常。

　　另外，全部單關鍵字的數據庫表都符合第二範式，由於不可能存在組合關鍵字。

　　第三範式（3NF）：在第二範式的基礎上，數據表中若是不存在非關鍵字段對任一候選關鍵字段的傳遞函數依賴則符合第三範式。所謂傳遞函數依賴，指的是如果存在"A → B → C"的決定關係，則C傳遞函數依賴於A。所以，知足第三範式的數據庫表應該不存在以下依賴關係：

　　關鍵字段 → 非關鍵字段x → 非關鍵字段y

　　假定學生關係表爲Student(學號, 姓名, 年齡, 所在學院, 學院地點, 學院電話)，關鍵字爲單一關鍵字"學號"，由於存在以下決定關係：

　　(學號) → (姓名, 年齡, 所在學院, 學院地點, 學院電話)

　　這個數據庫是符合2NF的，可是不符合3NF，由於存在以下決定關係：

　　(學號) → (所在學院) → (學院地點, 學院電話)

　　即存在非關鍵字段"學院地點"、"學院電話"對關鍵字段"學號"的傳遞函數依賴。

　　它也會存在數據冗餘、更新異常、插入異常和刪除異常的狀況，讀者可自行分析得知。

　　把學生關係表分爲以下兩個表：

　　學生：(學號, 姓名, 年齡, 所在學院)；

　　學院：(學院, 地點, 電話)。

　　這樣的數據庫表是符合第三範式的，消除了數據冗餘、更新異常、插入異常和刪除異常。

　　鮑依斯-科得範式（BCNF）：在第三範式的基礎上，數據庫表中若是不存在任何字段對任一候選關鍵字段的傳遞函數依賴則符合第三範式。

　假設倉庫管理關係表爲StorehouseManage(倉庫ID, 存儲物品ID, 管理員ID, 數量)，且有一個管理員只在一個倉庫工做；一個倉庫能夠存儲多種物品。這個數據庫表中存在以下決定關係：

　　(倉庫ID, 存儲物品ID) →(管理員ID, 數量)

　　(管理員ID, 存儲物品ID) → (倉庫ID, 數量)

　　因此，(倉庫ID, 存儲物品ID)和(管理員ID, 存儲物品ID)都是StorehouseManage的候選關鍵字，表中的惟一非關鍵字段爲數量，它是符合第三範式的。可是，因爲存在以下決定關係：

　　(倉庫ID) → (管理員ID)

　　(管理員ID) → (倉庫ID)

　　即存在關鍵字段決定關鍵字段的狀況，因此其不符合BCNF範式。它會出現以下異常狀況：

　　(1) 刪除異常：

　　當倉庫被清空後，全部"存儲物品ID"和"數量"信息被刪除的同時，"倉庫ID"和"管理員ID"信息也被刪除了。

　　(2) 插入異常：

　　當倉庫沒有存儲任何物品時，沒法給倉庫分配管理員。

　　(3) 更新異常：

　　若是倉庫換了管理員，則表中全部行的管理員ID都要修改。

　　把倉庫管理關係表分解爲二個關係表：

　　倉庫管理：StorehouseManage(倉庫ID, 管理員ID)；

　　倉庫：Storehouse(倉庫ID, 存儲物品ID, 數量)。

　　這樣的數據庫表是符合BCNF範式的，消除了刪除異常、插入異常和更新異常。

範式應用

　　咱們來逐步搞定一個論壇的數據庫，有以下信息：

　　（1）用戶：用戶名，email，主頁，電話，聯繫地址

　　（2）帖子：發帖標題，發帖內容，回覆標題，回覆內容

　　第一次咱們將數據庫設計爲僅僅存在表：

用戶名

主頁

電話

聯繫地址

發帖標題

發帖內容

回覆標題

回覆內容

　　這個數據庫表符合第一範式，可是沒有任何一組候選關鍵字能決定數據庫表的整行，惟一的關鍵字段用戶名也不能徹底決定整個元組。咱們須要增長"發帖ID"、"回覆ID"字段，即將表修改成：

用戶名

主頁

電話

聯繫地址

發帖ID

發帖標題

發帖內容

回覆ID

回覆標題

回覆內容

　　這樣數據表中的關鍵字(用戶名，發帖ID，回覆ID)能決定整行：

　　(用戶名,發帖ID,回覆ID) → (email,主頁,電話,聯繫地址,發帖標題,發帖內容,回覆標題,回覆內容)

　　可是，這樣的設計不符合第二範式，由於存在以下決定關係：

　　(用戶名) → (email,主頁,電話,聯繫地址)

　　(發帖ID) → (發帖標題,發帖內容)

　　(回覆ID) → (回覆標題,回覆內容)

　　即非關鍵字段部分函數依賴於候選關鍵字段，很明顯，這個設計會致使大量的數據冗餘和操做異常。

　　咱們將數據庫表分解爲（帶下劃線的爲關鍵字）：

　　（1）用戶信息：用戶名，email，主頁，電話，聯繫地址

　　（2）帖子信息：發帖ID，標題，內容

　　（3）回覆信息：回覆ID，標題，內容

　　（4）發貼：用戶名，發帖ID

　　（5）回覆：發帖ID，回覆ID

　　這樣的設計是知足第一、二、3範式和BCNF範式要求的，可是這樣的設計是否是最好的呢？

　　不必定。

　　觀察可知，第4項"發帖"中的"用戶名"和"發帖ID"之間是1：N的關係，所以咱們能夠把"發帖"合併到第2項的"帖子信息"中；第5項"回覆"中的 "發帖ID"和"回覆ID"之間也是1：N的關係，所以咱們能夠把"回覆"合併到第3項的"回覆信息"中。這樣能夠必定量地減小數據冗餘，新的設計爲：

　　（1）用戶信息：用戶名，email，主頁，電話，聯繫地址

　　（2）帖子信息：用戶名，發帖ID，標題，內容

　　（3）回覆信息：發帖ID，回覆ID，標題，內容

　　數據庫表1顯然知足全部範式的要求；

　　數據庫表2中存在非關鍵字段"標題"、"內容"對關鍵字段"發帖ID"的部分函數依賴，即不知足第二範式的要求，可是這一設計並不會致使數據冗餘和操做異常；

　　數據庫表3中也存在非關鍵字段"標題"、"內容"對關鍵字段"回覆ID"的部分函數依賴，也不知足第二範式的要求，可是與數據庫表2類似，這一設計也不會致使數據冗餘和操做異常。

　　由此能夠看出，並不必定要強行知足範式的要求，對於1：N關係，當1的一邊合併到N的那邊後，N的那邊就再也不知足第二範式了，可是這種設計反而比較好！

　　對於M：N的關係，不能將M一邊或N一邊合併到另外一邊去，這樣會致使不符合範式要求，同時致使操做異常和數據冗餘。
對於1：1的關係，咱們能夠將左邊的1或者右邊的1合併到另外一邊去，設計致使不符合範式要求，可是並不會致使操做異常和數據冗餘。

　　結論

　　知足範式要求的數據庫設計是結構清晰的，同時可避免數據冗餘和操做異常。這並意味着不符合範式要求的設計必定是錯誤的，在數據庫表中存在1：1或1：N關係這種較特殊的狀況下，合併致使的不符合範式要求反而是合理的。

　　在咱們設計數據庫的時候，必定要時刻考慮範式的要求。

原文地址:http://www.cnblogs.com/elleniou/archive/2012/08/09/2630433.html