最基礎的數據結構-左輕侯

時間 2019-11-10

標籤基礎數據結構简体版

原文原文鏈接

做者：左輕侯程序員

建立時間：2007-03-04 22:29:06 最後修改時間：2008-01-18 22:07:52 算法

本文發表於《程序員》2007年第3期
　　
　　最基礎的數據結構
　　左輕侯
　　2007.2.3
　　
　　引言
　　
　　任何一個受過專業訓練的程序員，對「數據結構」這門課程中涉及到的各類數據結構都不會感到陌生。可是，在實際的編程工做中，大部分的數據結構都不會用到，並且也許永遠都不會用到。形成這種現象的緣由有二：一是根據80/20法則，經常使用的數據結構只會佔到少部分；二是計算機語言每每已經對經常使用的數據結構進行了良好的封裝，程序員不須要關心內部的實現。
　　雖然如此，深刻地理解基本數據結構的概念和實現細節，仍然是每個程序員的任務。這不只是由於，掌握這些知識，將有利於更加正確和靈活地應用它們，並且也是由於，對於語言背後的實現細節的求知慾，是一個優秀的程序員的素質。
　　本文將討論實際編程最常用的三種數據結構：字符串、數組和Hash表，比較它們在不一樣語言中的實現思路，並涉及它們的使用技巧。
　　
　　字符串
　　嚴格地說，字符串（string）甚至不能算做一種單獨的數據結構，至少在C語言中，它僅僅是某種特定類型的數組而已。可是，字符串在實際使用中是如此重要，在不一樣語言中的實現又差別頗大，所以，它值得被做爲一種抽象數據類型單獨進行討論，而且在咱們討論的三種結構中排名第一。
　　最經典的字符串實現，應該是C語言中的零終結(null-terminated)字符串。如上所述，C風格的字符串實質上是一個字符數組，它依次存放字符串中的每一個字符，最後以零字符（’\\0’，表示爲常量null）做爲結束。所以，字符串佔據的空間比它實際的長度要多1個單元。在實際應用中，它常以數組或字符指針的形式被定義，以下例：
　　
　　char[] message = 「this is a message」;
　　char* pmessage = 「an other message」;
　　
　　 C語言中，字符串並非一種獨立的數據類型，也沒有提供將字符串做爲一個總體進行處理的運算符。對字符串的全部操做，實際上都是經過對字符數組的操做來完成。
　　試想一個函數，功能是求C風格字符串的長度。實現的思路是：設置一個計數器，而後用一個指針遍歷整個字符數組，同時對計數器進行累加，直到字符串結束（指針指向了null）。實際上，C語言中的strlen函數也是這麼實現的。這種方式看上去很是合理，可是在處理一個很是大的字符數組時，會遭遇到嚴重的性能問題。若是一個字符串長達數M甚至更大，那麼求其長度的操做，須要執行數百萬次甚至更長的循環。更糟糕的是，因爲這個結果沒有被緩存，因此每次求長度的操做都會重複執行這些循環。
　　 C風格字符串的另外一個缺陷是，它不會自動管理內存。這意味着，若是字符串的長度超出了數組可以容納的範圍，程序員必須手動申請新的內存空間，並將原來的內容複製過去。這種方式不但產生了大量無謂的工做，並且是無數臭名昭著的溢出漏洞的緣由。一個最簡單的例子是，當一個程序要求用戶輸入一個字符串時，若是用戶輸入的字符串的長度大於程序設定的緩衝區的長度，將會致使溢出，最終程序會崩潰。
　　針對C風格字符串的這些缺陷，新的語言進行了相應的改進。做爲C的直接繼承者，C++語言在標準庫中提供了一個基礎字符串的實現：std :: basic_string。它封裝了大量常見的操做，例如取長度、比較、插入、拼接、查找、替換等等，而且可以自動管理內存。例如，因爲C++支持運算符重載，所以C++字符串可使用運算符直接進行運算，而不須要調用strcpy函數。另外，C++字符串也提供了與C風格字符串進行轉換的功能。基於強大的模板機制，C++字符串將字符串的實現和具體的字符類型分離開來了。下面是兩種最多見的字符串類型：
　　
　　typedef basic_string<char> string; // 定義了ansi類型的字符串
　　typedef basic_string<wchar_t> wstring; // 定義了寬字符類型的字符串
　　
　　不幸的是，因爲複雜的歷史緣由，許多C++方言（例如Visual C++和Borland C++Builder）都提供了與標準字符串不一樣的字符串實現。這些字符串實現各有長處，可是將它們和C++標準字符串以及C風格字符串進行轉換，又成爲了一項使人頭疼的工做。
　　 Delphi對字符串的改進基於另一種思路。在Delphi中，字符串仍然是一種基本類型，而不是類。它的實現方式也是字符數組，不一樣於C風格字符串的是，在數組的頭部增長了兩個32位整數存儲空間，分別用於存放字符串的長度和引用計數。經過前者能夠方便地得到字符串的長度，而不須要進行無謂的遍歷操做。後者實現了COW（Copy on Write）技術，這種技術的效果是：當字符串被複制時，並不會複製其內容，而只是創建一個新的指針，指向原有的字符串，並在引用計數上加一。當字符串被刪除時，引用計數減一，當引用計數爲0時，字符串的內存將被釋放。只有當對字符串進行寫入操做時，纔會創建一個新的字符串並複製內容。這些工做是由編譯器自動完成的，程序員徹底能夠象使用C風格字符串同樣使用Delphi風格的字符串，只是效率大大地提升了。
　　 Java和C#中的字符串，是一個封裝了常見操做的類，這一點和C++相似。一個特殊之處（每每致使經典的性能問題）是，不管是在Java仍是在C#中，String類都是不變(immutable)的。也就是說，String的內容不可以被改變，若是代碼試圖改變一個String對象的內容，實際的結果是創建了一個新的String對象，並拋棄舊的對象。以下例：
　　
　　String s = \"\";
　　for (int i = 0;i < 10000;i++) {
　　 s += i + \", \";
　　}
　　
　　結果是創建並拋棄了10000個String對象，這在性能上的開銷是驚人的。爲了不這種狀況，應該使用StringBuilder對象，它能夠改變其內容。（C#一直使用StringBuilder。Java從1.5開始引入StringBuilder以部分替代StringBuffer，它們的主要區別在於線程安全性。）以下例：
　　
　　StringBuilder sb = new StringBuilder();
　　for (int i = 0; i < 10000; i++) {
　　sb.append(i + \",\");
　　}
　　
　　數組
　　從抽象數據類型的意義上來講，一維數組(array)的定義是：具備相同數據類型的若干個元素的有限序列。
　　在C語言中，數組意味着一塊連續的內存空間，按順序存放着若干個相同數據類型的元素。能夠經過下標來訪問數組中的元素。以下例：
　　
　　int a[10]; // 定義一個int型的數組
　　for (int i = 0;i < 10;i++) {
　　 a[i] = i; // 賦值
　　}
　　
　　在C語言中，數組名事實上是一個指針（指向該數組的第一個元素），所以全部經過數組下標完成的操做，均可以經過指針來完成。經過指針來訪問數組，效率上比數組下標要高，並且更加靈活，例如，指針能夠進行偏移量的運算，甚至能夠進行絕對地址的存取。
　　 C語言中的數組沒有越界檢查，這意味着，程序員能夠訪問數組最後一個元素之後的地址，或者第一個元素以前的地址（例如，a[-1]、a[-2]這種形式是合法的）。在某些狀況下，這是一種有用的技巧，但大多數狀況下是一場災難。C語言的數組也不支持自動增加，若是數組的長度發生了變化，程序員必須手動處理全部關於申請和釋放內存的工做。
　　 C++提供了C風格的數組，一樣不支持越界檢查和自動增加。可是，C++（至少是Stroustrup博士本人）建議，應該儘可能使用STL中的容器做爲替代品，通常是vector。Vector基於面向對象和模板技術，構建了一個強大而複雜的類，實現了以下特性：高效率的自動內存管理；按任何順序訪問、插入和刪除元素；越界檢查，但同時也提供了不進行檢查的訪問方式，以照顧性能上的考慮；基於運算符重載技術的運算符支持；基於迭代器的漫遊機制；與數據類型無關的算法支持；等等。相對於C風格的數組，vector是一種更高抽象層次上的序列概念。它對大量經常使用的功能進行了封裝（例如，對內存的直接操做），同時又儘量地照顧了效率和可移植性（例如，在自動擴充時經過緩存機制來提升效率）。這也正是C++語言對C語言進行改進時的指導思想。
　　 Delphi也支持C風格的數組，但提供了越界檢查。另外，Delphi還提供了一種動態數組（Dynamic Array），能夠在運行時經過SetLength函數動態地改變它的大小。事實上，SetLength函數就是對內存管理操做的一種封裝。相似於C++中的vector，Delphi也提供了兩個能夠自動增加的容器：TList和TObjectList，前者用於存放無類型的指針，後者用於存放對象。因爲Delphi不支持模板機制，因此TList不會自動釋放指針所指向的內存，它只會維護指針自身佔用的內存（TObjectList可以在銷燬時自動釋放元素所佔用的空間，若是它的OwnsObjects屬性被設置爲True的話）。一種經常使用的解決方法是，編寫一個針對具體類型的包裹類，使用一個做爲私有數據成員的TList對象來管理指針，並手動編寫申請和釋放內存的那部分代碼。這樣總比C語言中的狀況要好得多。
　　 Java也支持加上了越界檢查的C風格數組，但它提供的相似容器更爲引人注目。Java將序列（List）做爲一個單獨的接口提取出來，並提供了兩個實現：ArrayList和LinkedList。從名字就能夠看出來，前者是經過數組來實現的，後者則經過鏈表。因爲都實現了List接口，兩者能夠支持一樣的基本操做方式，不一樣的是，ArrayList在頻繁進行隨機訪問時有效率上的優點，而LinkedList在頻繁進行插入和刪除操做時效率較優。實現了List接口的類還有Vector和Stack，可是它們在Java 1.1之後就被廢棄了。因爲LinkedList能夠在序列的頭尾插入和刪除元素，它能夠很好地實現Stack和Queue的功能。
　　 Java在1.5之前的版本中也不支持模板，所以List（以及其餘的容器）接受Object類型做爲元素。因爲在Java中全部的類都派生自Object，因此這些容器可以支持任何對象。對於不是對象的基本類型，Java提供了一種包裹類(wrapped class)，它可以將基本類型轉換成常規的類，從而得到容器的支持。這和Delphi的解決思路殊途同歸。
　　
　　Hash表
　　做爲一種抽象數據結構，詞典（Dictionary）被定義爲鍵-值(Key-Value)對的集合。舉例來講，在電話號碼簿中，經過查找姓名，來找到電話號碼，這個例子中姓名是key，電話號碼是value。又好比，在學生花名冊中，經過查找學號，來找到學生的姓名，這個例子中學號是key，學生的姓名是value。詞典最多見的實現方式是Hash表。
　　 Hash表的實現思路以下：經過某種算法，在鍵-值對的存儲地址和鍵-值對中的key之間，創建一種映射，使得每個key，都有一個肯定的存儲地址與之對應。這種算法被封裝在Hash函數中。在查找時，經過Hash函數，算出和key對應的存儲地址，從而找到相應的鍵-值對。相對於經過遍歷整個鍵-值對列表來進行查找，Hash表的查找效率要高得多，理想的狀況下算法複雜度僅爲O(1)（遍歷查找的複雜度爲O(n)）。
　　可是，因爲一般狀況下key的集合比鍵-值對存儲地址的集合要大得多，因此有可能把不一樣的key映射到同一個存儲地址上。這種狀況稱爲衝突（collision）。一個好的Hash函數應該儘量地把key映射到均勻的地址空間中，以減小衝突。Hash表的實現也應該提供解決衝突的方案。
　　Hash表是一種相對複雜得多的數據結構，從底層完整地實現一個Hash表，也許超出了對一個普通程序員的要求。可是，因爲它是如此重要，瞭解Hash表的概念和掌握使用它的接口，仍然是一項必不可少的技能。
　　 C語言中沒有提供現成的Hash表，可是C++提供了優秀的Hash表實現容器hash_map。象STL中的其餘容器同樣，hash_map支持任何數據類型，支持內存自動管理，可以自動增加。特別地，hash_map經過模板機制，實現了和hash函數的剝離，也就是說，程序員能夠定義本身的hash函數，交給hash_map去進行相應的工做。以下例：
　　
　　hash_map <string, int> hml; // 使用默認的Hash<string>函數
　　hash_map <string, int, hfct> hml; // 使用自定義的hfct()做爲hash函數
　　hash_map <string, int, hfct, eql> hml; // 使用自定義的hfct()做爲hash函數，而且使用自定義的eql()函數比較對象是否相等
　　
　　 Java定義了Map接口，抽象了關於Map的各類操做。在實現了Map接口的類中，有兩種是Hash表：HashMap和WeakHashMap（HashTable在Java 1.1之後已被廢棄）。後者用於實現所謂「標準映射」（canonicalizing mappings），和本文討論的內容關係不大。HashMap接受任何類型的對象做爲鍵-值對的元素，支持快速的查找。以下例：
　　
　　HashMap hm = new HashMap();
　　hm.put(\"akey\", \"this is a word\"); // 使用兩個字符串做爲鍵-值對
　　String str = (String) hm.get(\"akey\");
　　System.out.println(str);
　　
　　HashMap和hash函數也是剝離的，但使用了另外一種思路。在Java中，根類型Object定義了hashCode()和equals()方法，因爲任何類型的對象都派生自Object，因此它們都自動繼承了這兩個方法。用戶自定義的類應該重載這兩個方法，以實現本身的hash函數和比較函數。若是這兩個函數沒有被重載，Java會使用Object的hashCode()和equals()方法，它們的默認實現分別是返回對象的地址，以及比較兩個對象的地址是否相等。
　　在PHP中，數組和Hash表合而爲一了。從語法上看，PHP中並無Hash表這樣的容器，而只支持數組。不一樣的是，PHP中的數組不但支持使用數字下標進行索引，並且支持使用字符串下標進行索引。換句話說，PHP中的數組支持使用鍵-值對做爲數組的元素，而且可使用鍵來進行索引(鍵必須爲integer類型或string類型)。並且，PHP中的數組支持自動增加和嵌套。以下例：
　　
　　$arr = array(1 => 12, \"akey\" => \"this is a word\");
　　echo $arr[1]; // 獲得12
　　echo $arr[\"akey\"]; // 獲得\"this is a word\"
　　
　　 PHP沒有提供自定義hash函數的接口。因爲它不接受integer和string之外的類型做爲鍵，這一點事實上也沒有必要。
　　
　　結束語
　　當接受這篇文章的約稿時，我認爲這是一項比較簡單的工做。由於這三種數據結構實在是太基礎了，因此我甚至懷疑是否可以寫出足夠長的篇幅。很快我就發現了本身的錯誤。光是字符串就夠寫一本書的。
　　在撰寫本文的過程，我回顧了學習過的大部分編程語言，重溫了許多經典書籍中的相關章節，啓動了各類IDE編寫測試用例。我接觸到了大量未知的領域，至今我仍然在猜想許多問題的實現細節。這從另一個方面說明了基本數據結構的重要性：即便在咱們最熟悉的事物中，也隱藏着極爲深入的原理。
　　
　　參考文獻：
　　K&R，C程序設計語言，第二版
　　Bjarne Stroustrup，C++程序設計語言，第三版
　　Koenig & Moo，C++沉思錄
　　Delphi Language Guide
　　Bruce Eckel，Thinking in Java，第二版
　　McLaughlin & Flanagan，Java 5.0 Tiger程序高手祕笈
　　Jesse Liberty，Programming C#
　　W. Gilmore，PHP與MySQL 5程序設計
　　Lutz & David Ascher，Learning Python，第二版
　　Alex Martelli，Python in a Nutshell，第二版
　　Introduction to Algorithms，第二版
　　殷人昆等，數據結構（用面向對象和C++描述）
　　Joel Spolsky，Joel說軟件 shell

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。