快速入門數據結構和算法

時間 2021-04-24

標籤 html 算法數組性能優化網絡數據結構多線程數據結構和算法函數性能欄目 HTML 简体版

原文原文鏈接

簡介： 有哪些常見的數據結構？基本操做是什麼？常見的排序算法是如何實現的？各有什麼優缺點？本文簡要分享算法基礎、常見的數據結構以及排序算法，給同窗們帶來一堂數據結構和算法的基礎課。html

一前言

1 爲何要學習算法和數據結構？

解決特定問題。
深度優化程序性能的基礎。
學習一種思想：如何把現實問題轉化爲計算機語言表示。

2 業務開發要掌握到程度？

瞭解常見數據結構和算法，溝通沒有障礙。
活學活用：遇到問題時知道要用什麼數據結構和算法去優化。

二數據結構基礎

1 什麼是數據結構？

數據結構是數據的組織、管理和存儲格式，其使用目的是爲了高效的訪問和修改數據。算法

數據結構是算法的基石。若是把算法比喻成美麗靈動的舞者，那麼數據結構就是舞者腳下廣闊而堅實的舞臺。數組

2 物理結構和邏輯結構的區別？

物理結構就像人的血肉和骨骼，看得見，摸得着，實實在在，如數組、鏈表。性能優化

邏輯結構就像人的思想和精神，它們看不見、摸不着，如隊列、棧、樹、圖。網絡

3 線性存儲結構和非線性存儲結構的區別？

線性：元素之間的關係是一對一的，如棧、隊列。
非線性：每一個元素可能鏈接0或多個元素，如樹、圖。

三算法基礎

1 什麼是算法？

數學：算法是用於解決某一類問題的公式和思想。
計算機：一系列程序指令，用於解決特定的運算和邏輯問題。

2 如何衡量算法好壞？

時間複雜度：運行時間長短。
空間複雜度：佔用內存大小。

3 怎麼計算時間複雜度？

大O表示法（漸進時間複雜度）：把程序的相對執行時間函數T(n)簡化爲一個數量級，這個數量級能夠是n、n^二、logN等。數據結構

推導時間複雜度的幾個原則：多線程

若是運行時間是常數量級，則用常數1表示。
只保留時間函數中的最高階項。
若是最高階項存在，則省去最高項前面的係數。

時間複雜度對比：O(1) > O(logn) > O(n) > O(nlogn) > O(n^2)。數據結構和算法

不一樣時間複雜度算法運行次數對比：函數

4 怎麼計算空間複雜度？

常量空間 O(1)：存儲空間大小固定，和輸入規模沒有直接的關係。性能

線性空間 O(n)：分配的空間是一個線性的集合，而且集合大小和輸入規模n成正比。

二維空間 O(n^2)：分配的空間是一個二維數組集合，而且集合的長度和寬度都與輸入規模n成正比。

遞歸空間 O(logn)：遞歸是一個比較特殊的場景。雖然遞歸代碼中並無顯式的聲明變量或集合，可是計算機在執行程序時，會專門分配一塊內存空間，用來存儲「方法調用棧」。執行遞歸操做所須要的內存空間和遞歸的深度成正比。

5 如何定義算法穩定性？

穩定：若是a本來在b前面，而a=b，排序以後a仍然在b的前面。

不穩定：若是a本來在b的前面，而a=b，排序以後 a 可能會出如今 b 的後面。

6 有哪些常見算法？

首先要明確：特定算法解決特定問題。

字符串：暴力匹配、BM、KMP、Trie等。
查找：二分查找、遍歷查找等。
排序：冒泡排序、快排、計數排序、堆排序等。
搜索：TFIDF、PageRank等。
聚類分析：指望最大化、k-meanings、k-數位等。
深度學習：深度信念網絡、深度卷積神經網絡、生成式對抗等。
異常檢測：k最近鄰、局部異常因子等。
......

其中，字符串、查找、排序算法是最基礎的算法。

四常見數據結構

1 數組

1）什麼是數組？

數據是有限個相同類型的變量所組成的有序集合。數組中的每個變量被稱爲元素。

2）數組的基本操做？

讀取O(1)、更新O(1)、插入O(n)、刪除O(n)、擴容O(n)。

2 鏈表

1）什麼是鏈表？

鏈表是一種在物理上非連續、非順序的數據結構，由若干個節點組成。

單向鏈表的每個節點又包含兩部分，一部分是存放數據的變量data，另外一部分是指向下一個節點的指針next。

2）鏈表的基本操做？

讀取O(n)、更新O(1)、插入O(1)、刪除O(1)。

3）鏈表 VS 數組

數組：適合多讀、插入刪除少的場景。

鏈表：適用於插入刪除多、讀少的場景。

3 棧

1）什麼是棧？

棧是一種線性邏輯數據結構，棧的元素只能後進先出。最先進入的元素存放的位置叫作棧底，最後進入的元素存放的位置叫棧頂。

一個比喻，棧是一個一端封閉一端的開放的中空管子，隊列是兩端開放的中空管子。

2）如何實現棧？

數組實現：

鏈表實現：

3）棧的基本操做

入棧O(1)、出棧O(1)。

4）棧的應用？

回溯歷史，好比方法調用棧。
頁面麪包屑導航。

4 隊列

1）什麼是隊列？

一種線性邏輯數據結構，隊列的元素只能後進後出。隊列的出口端叫作隊頭，隊列的入口端叫作隊尾。

2）如何實現隊列？

數組實現：

鏈表實現：

3）隊列的基本操做？

入隊 O(1)、出隊 O(1)。

4）隊列的應用

消息隊列
多線程的等待隊列
網絡爬蟲的待爬URL隊列

5 哈希表

1）什麼是哈希表？

一種邏輯數據結構，提供了鍵（key）和值（value）的映射關係。

2）哈希表的基本操做？

寫入：O(1)、讀取：O(1)、擴容O(n)。

3）什麼是哈希函數？

哈希表本質上是一個數組，只是數組只能根據下標，像a[0] a[1] a[2] a[3] 這樣來訪問，而哈希表的key則是以字符串類型爲主的。

經過哈希函數，咱們能夠把字符串或其餘類型的key，轉化成數組的下標index。

如給出一個長度爲8的數組，則：

當key=001121時，

index = HashCode ("001121") % Array.length = 7

當key=this時，

index = HashCode ("this") % Array.length = 6

4）什麼是哈希衝突？

不一樣的key經過哈希函數得到的下標有多是相同的，例如002936這個key對應的數組下標是2，002947對應的數組下標也是2，這種狀況就是哈希衝突。

5）如何解決哈希衝突？

開放尋址法：例子Threadlocal。

鏈表法：例子Hashmap。

6 樹

1）什麼是樹？

樹（tree）是n（n≥0）個節點的有限集。

當n=0時，稱爲空樹。在任意一個非空樹中，有以下特色：

有且僅有一個特定的稱爲根的節點。
當n>1時，其他節點可分爲m（m>0）個互不相交的有限集，每個集合自己又是一個樹，並稱爲根的子樹。

2）樹的遍歷？

（1）深度優先

前序：根節點、左子樹、右子樹。

中序：左子樹、根節點、右子樹。

後序：左子樹、右子樹、根節點。

實現方式：遞歸或棧。

（2）廣度優先

層序：一層一層遍歷。

實現方式：隊列。

7 二叉樹

1）什麼是二叉樹?

二叉樹（binary tree）是樹的一種特殊形式。二叉，顧名思義，這種樹的每一個節點最多有2個孩子節點。注意，這裏是最多有2個，也可能只有1個，或者沒有孩子節點。

2）什麼是滿二叉樹?

一個二叉樹的全部非葉子節點都存在左右孩子，而且全部葉子節點都在同一層級上，那麼這個樹就是滿二叉樹。

3）什麼是徹底二叉樹?

對一個有n個節點的二叉樹，按層級順序編號，則全部節點的編號爲從1到n。若是這個樹全部節點和一樣深度的滿二叉樹的編號爲從1到n的節點位置相同，則這個二叉樹爲徹底二叉樹。

8 二叉查找樹

1）什麼是二叉查找樹？

二叉查找樹在二叉樹的基礎上增長了如下幾個條件：

若是左子樹不爲空，則左子樹上全部節點的值均小於根節點的值。
若是右子樹不爲空，則右子樹上全部節點的值均大於根節點的值。
左、右子樹也都是二叉查找樹。

2）二叉查找樹的做用？

查找==》二分查找。
排序==》中序遍歷。

3）二叉樹的實現方式？

鏈表。
數組：對於稀疏二叉樹來講，數組表示法是很是浪費空間的。

9 二叉堆

1）什麼是二叉堆？

二叉堆是一種特殊的徹底二叉樹，它分爲兩個類型：最大堆和最小堆。

最大堆的任何一個父節點的值，都大於或等於它左、右孩子節點的值。
最小堆的任何一個父節點的值，都小於或等於它左、右孩子節點的值。

2）二叉堆的基本操做？

（1）插入：插入最末，節點上浮。

（2）刪除：刪除頭節點，尾節點放到頭部，再下沉。

（3）構建二叉堆：二叉樹==》二叉堆，全部非葉子節點依次下沉。

3）二叉堆的實現方式？

數組：

五常見排序算法

1 十大經典排序算法

2 冒泡排序

1）算法描述

冒泡排序是一種簡單的排序算法。它重複地走訪過要排序的數列，一次比較兩個元素，若是它們的順序錯誤就把它們交換過來。走訪數列的工做是重複地進行直到沒有再須要交換，也就是說該數列已經排序完成。這個算法的名字由來是由於越小的元素會經由交換慢慢「浮」到數列的頂端。

2）實現步驟

比較相鄰的元素。若是第一個比第二個大，就交換它們兩個。
對每一對相鄰元素做一樣的工做，從開始第一對到結尾的最後一對，這樣在最後的元素應該會是最大的數。
針對全部的元素重複以上的步驟，除了最後一個。
重複步驟1~3，直到排序完成。

3）優缺點

優勢：實現和理解簡單。
缺點：時間複雜度是O(n^2)，排序元素多時效率比較低。

4）適用範圍

數據已經基本有序，且數據量較小的場景。

5）場景優化

（1）已經有序了還再繼續冒泡問題

本輪排序中，元素沒有交換，則isSorted爲true，直接跳出大循環，避免後續無心義的重複。

（2）部分已經有序了，下一輪的時候但仍是會被遍歷

記錄有序和無序數據的邊界，有序的部分在下一輪就不用遍歷了。

（3）只有一個元素不對，但須要走徹底部輪排序

雞尾酒排序：元素的比較和交換是雙向的，就像搖晃雞尾酒同樣。

3 歸併排序

1）算法描述

歸併排序是創建在歸併操做上的一種有效的排序算法。該算法是採用分治法的一個很是典型的應用。遞歸的把當前序列分割成兩半（分割），在保持元素順序的同時將上一步獲得的子序列集成到一塊兒（歸併），最終造成一個有序數列。

2）實現步驟

圖源：http://www.javashuo.com/article/p-nkdsmljg-cd.html

把長度爲n的輸入序列分紅兩個長度爲n/2的子序列。
對這兩個子序列分別採用歸併排序。
將兩個排序好的子序列合併成一個最終的排序序列。

3）優缺點

優勢：

性能好且穩定，時間複雜度爲O(nlogn) 。
穩定排序，適用場景更多。

缺點：

非原地排序，空間複雜度高。

4）適用範圍

大數據量且指望要求排序穩定的場景。

4 快速排序

1）算法描述

快速排序使用分治法策略來把一個序列分爲較小和較大的2個子序列，而後遞歸地排序兩個子序列，以達到整個數列最終有序。

2）實現步驟

從數列中挑出一個元素，稱爲「基準值」（pivot）。
從新排序數列，全部元素比基準值小的擺放在基準前面，全部元素比基準值大的擺在基準的後面（相同的數能夠到任一邊）。在這個分區退出以後，該基準就處於數列的中間位置。這個稱爲分區（partition）操做。
遞歸地對【小於基準值元素的子數列】和【大於基準值元素的子數列】進行排序。

3）優缺點

優勢：

性能較好，時間複雜度最好爲O(nlogn)，大多數場景性能都接近最優。
原地排序，時間複雜度優於歸併排序。

缺點：

部分場景，排序性能最差爲O(n^2)。
不穩定排序。

4）適用範圍

大數據量且不要求排序穩定的場景。

5）場景優化

（1）每次的基準元素都選中最大或最小元素

隨機選擇基準元素，而不是選擇第一個元素。
三數取中法，隨機選擇三個數，取中間數爲基準元素。

（2）數列含有大量重複數據

大於、小於、等於基準值。

（3）快排的性能優化

雙軸快排：2個基準數，例子：Arrays.sort() 。

5 堆排序

1）算法描述

堆排序（Heapsort）是指利用堆這種數據結構所設計的一種排序算法。堆積是一個近似徹底二叉樹的結構，並同時知足堆積的性質：即子結點的鍵值或索引老是小於（或者大於）它的父節點。

2）實現步驟

將初始待排序關鍵字序列(R1,R2….Rn)構建成最大堆，此堆爲初始的無序區。
將堆頂元素R[1]與最後一個元素R[n]交換，此時獲得新的無序區(R1,R2,……Rn-1)和新的有序區(Rn),且知足R[1,2…n-1]<=R[n]。
因爲交換後新的堆頂R[1]可能違反堆的性質，所以須要對當前無序區(R1,R2,……Rn-1)調整爲新堆，而後再次將R[1]與無序區最後一個元素交換，獲得新的無序區(R1,R2….Rn-2)和新的有序區(Rn-1,Rn)。不斷重複此過程直到有序區的元素個數爲n-1，則整個排序過程完成。

3）優缺點

優勢：

性能較好，時間複雜度爲O(nlogn)。
時間複雜度比較穩定。
輔助空間複雜度爲O(1)。

缺點：

數據變更的狀況下，堆的維護成本較高。

4）適用範圍

數據量大且數據呈流式輸入的場景。

5）爲何實際狀況快排比堆排快？

堆排序的過程可知，創建最大堆後，會將堆頂的元素和最後一個元素對調，而後讓那最後一個元素從頂上往下沉到恰當的位置，由於底部的元素必定是比較小的，下沉的過程當中會進行大量的近乎無效的比較。因此堆排雖然和快排同樣複雜度都是O(NlogN)，但堆排複雜度的常係數更大。

6 計數排序

1）算法描述

計數排序不是基於比較的排序算法，其核心在於將輸入的數據值轉化爲鍵存儲在額外開闢的數組空間中。做爲一種線性時間複雜度的排序，計數排序要求輸入的數據必須是有肯定範圍的整數。

2）實現步驟

找出待排序的數組中最大元素。
構建一個數組C，長度爲最大元素值+1。
遍歷無序的隨機數列，每個整數按照其值對號入座，對應數組下標的值加1。
遍歷數組C，輸出數組元素的下標值，元素的值是幾就輸出幾回。

3）優缺點

優勢：

性能完爆比較排序，時間複雜度爲O(n+k)，k爲數列最大值。
穩定排序。

缺點：

適用範圍比較狹窄。

4）適用範圍

數列元素是整數，當k不是很大且序列比較集中時適用。

5）場景優化

（1）數字不是從0開始，會存在空間浪費的問題

數列的最小值做爲偏移量，以數列最大值-最小值+1做爲統計數組的長度。

7 桶排序

1）算法描述

桶排序是計數排序的升級版。它利用了函數的映射關係，高效與否的關鍵就在於這個映射函數的肯定。實現原理：假設輸入數據服從均勻分佈，將數據分到有限數量的桶裏，每一個桶再分別排序（有可能再使用別的排序算法或是以遞歸方式繼續使用桶排序進行排序）。

2）實現步驟

建立桶，區間跨度=(最大值-最小值)/(桶的數量-1)。
遍歷數列，對號入座。
每一個桶內進行排序，可選擇快排等。
遍歷全部的桶，輸出全部元素。

3）優缺點

優勢：

最優時間複雜度爲O(n)，完爆比較排序算法。

缺點：

適用範圍比較狹窄。
時間複雜度不穩定。

4）適用範圍

數據服從均勻分佈的場景。

8 性能對比

隨機生成區間0 ~ K之間的序列，共計N個數字，利用各類算法進行排序，記錄排序所需時間。

參考內容及圖源

[1]《漫畫算法：小灰的算法之旅》
[2]《算法（第4版）》
[3]《算法圖解》
[4]《劍指Offer》
[5]十大經典排序算法（動圖演示）
http://www.javashuo.com/article/p-apvjfrqu-dq.html
[6]維基百科
https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5