查找功能是數據處理的一個基本功能。數據查找並不複雜,可是如何實現數據又快又好地查找呢?前人在實踐中積累的一些方法,值得咱們好好學些一下。咱們假定查找的數據惟一存在,數組中沒有重複的數據存在。算法
(1)順序查找(普通的數據查找)
設想有一個1M的數據,咱們如何在裏面找到咱們想要的那個數據。此時數據自己沒有特徵,因此咱們須要的那個數據可能出如今數組的各個位置,可能在數據的開頭位置,也可能在數據的結束位置。這種性質要求咱們必須對數據進行遍歷以後才能獲取到對應的數據。數組
int find(int *arr,int num,int value) { if(NULL == arr || 0 == num) return -1; for(int index = 0;index < num;index++){ if(value == arr[index]) return index; } return -1; }
分析與總結:
因爲咱們不清楚這個數據判斷究竟須要多少次。可是,咱們知道,這樣一個數據查找最少須要1次,那麼最多須要n次,平均下來能夠當作是(1+n)/2,差很少是n的一半。咱們把這種比較次數和n成正比的算法時間複雜度記爲o(n)。數據結構
(2)二分法查找
上面的數據沒有任何特徵,這致使咱們的數據排列地雜亂無章。試想一下,若是數據排列地很是整齊,那結果會是什麼樣的呢?就像在生活中,若是平時不注意收拾整齊,那麼找東西的時候很是麻煩,效率很低;可是一旦東西放的位置固定下來,全部東西都歸類放好,那麼結果就不同了,咱們就會造成思惟定勢,這樣查找東西的效率就會很是高。
那麼,對一個有序的數組,咱們應該怎麼查找呢?二分法就是最好的方法。架構
int binary_find(int *arr,int num,int value) { if(NULL == arr || 0 == num) return -1; int start = 0; int end = num - 1; while(start <= end){ int middle = start +((end - start) >> 1); if(value == arr[middle]) return middle; else if(value > arr[middle]) start = middle + 1; else end = middle - 1; } return -1; }
分析:
上面咱們說到普通的數據查找算法複雜度是o(n),那麼咱們能夠用上面同樣的方法判斷一下算法複雜度。這種方法最少是1次,那麼最多須要多少次呢?咱們發現最多須要log(n+1)/log(2)便可。你們能夠找個例子本身算一下,好比說7個數據,咱們發現最多3次;若是是15個數據呢,那麼最多4次,以此類推。明顯,這種數據查找的效率要比前面的查找方法高不少。優勢:效率高,時間複雜度爲O(logN);缺點:數據要是有序的,順序存儲。ide
(3)二叉樹查找
上面的查找是創建在連續內存基礎之上的,那麼若是是指針類型的數據呢?怎麼辦呢?那麼就須要引入排序二叉樹了。
函數
排序二叉樹的定義很簡單:oop
(1)非葉子節點至少一邊的分支非NULL;學習
(2)葉子節點左右分支都爲NULL;優化
(3)每個節點記錄一個數據,同時左分支的數據都小於右分支的數據。能夠看看下面的定義:spa
typedef struct _NODE{ int data; struct _NODE* left; struct _NODE* right; }NODE; 代碼: NODE* binarytree_find(NODE* pNode,int value) { if(NULL == pNode) return NULL; if(value == pNode->data) return pNode; else if(data < pNode->data) return binarytree_find(pNode->left,value); else return binarytree_find(pNode->right,value); }
(4)hash排序
方法(2)、(3)都是創建在徹底排序的基礎上,那麼在沒有創建折中基礎上的排序呢?就是hash表。
哈希表的定義以下:
1)每一個數據按照某種聚類運算歸到某一大類,而後全部數據鏈成一個鏈表;
2)全部鏈表的頭指針造成一個指針數組。這種方法由於不須要完整排序,因此在處理中等規模數據的時候頗有效。其中節點的定義以下:
typedef struct _NODE { int data; struct _NODE* next; }NODE; 查找代碼: NODE* hash_find(NODE* arr[],int mod,int value) { int index= data % mod; if(NULL == arr[index]) return NULL; NODE* pNode = arr[index]; while(pNode){ if(value == pNode->data) return pNode; pNode = pNode->next; } return pNode; }
分析:
hash表由於不須要排序,只進行簡單的歸類,在數據查找的時候特別方便。查找時間的大小取決於mod的大小。mod越小,那麼hash查找就越接近於普通查找;那麼hash越大呢,那麼hash一次查找成功的機率就大大增長。
其它算法說明:
算法一:快速排序算法
快速排序是由東尼·霍爾所發展的一種排序算法。在平均情況下,排序 n 個項目要Ο(n log n)次比較。在最壞情況下則須要Ο(n2)次比較,但這種情況並不常見。事實上,快速排序一般明顯比其餘Ο(n log n) 算法更快,由於它的內部循環(inner loop)能夠在大部分的架構上頗有效率地被實現出來。
快速排序使用分治法(Divide and conquer)策略來把一個串行(list)分爲兩個子串行(sub-lists)。
算法步驟:
(1)從數列中挑出一個元素,稱爲 「基準」(pivot),
(2) 從新排序數列,全部元素比基準值小的擺放在基準前面,全部元素比基準值大的擺在基準的後面(相同的數能夠到任一邊)。在這個分區退出以後,該基準就處於數列的中間位置。這個稱爲分區(partition)操做。
(3)遞歸地(recursive)把小於基準值元素的子數列和大於基準值元素的子數列排序。
遞歸的最底部情形,是數列的大小是零或一,也就是永遠都已經被排序好了。雖然一直遞歸下去,可是這個算法總會退出,由於在每次的迭代(iteration)中,它至少會把一個元素擺到它最後的位置去。
算法二:堆排序算法
堆排序(Heapsort)是指利用堆這種數據結構所設計的一種排序算法。堆積是一個近似徹底二叉樹的結構,並同時知足堆積的性質:即子結點的鍵值或索引老是小於(或者大於)它的父節點。
堆排序的平均時間複雜度爲Ο(nlogn) 。
算法步驟:
(1) 建立一個堆H[0..n-1]
(2) 把堆首(最大值)和堆尾互換
(3) 把堆的尺寸縮小1,並調用shift_down(0),目的是把新的數組頂端數據調整到相應位置
(4) 重複步驟2,直到堆的尺寸爲1
算法三:歸併排序
歸併排序(Merge sort,臺灣譯做:合併排序)是創建在歸併操做上的一種有效的排序算法。該算法是採用分治法(Divide and Conquer)的一個很是典型的應用。
算法步驟:
(1) 申請空間,使其大小爲兩個已經排序序列之和,該空間用來存放合併後的序列
(2) 設定兩個指針,最初位置分別爲兩個已經排序序列的起始位置
(3) 比較兩個指針所指向的元素,選擇相對小的元素放入到合併空間,並移動指針到下一位置
(4) 重複步驟3直到某一指針達到序列尾
(5) 將另外一序列剩下的全部元素直接複製到合併序列尾
算法四:二分查找算法
二分查找算法是一種在有序數組中查找某一特定元素的搜索算法。搜素過程從數組的中間元素開始,若是中間元素正好是要查找的元素,則搜素過程結束;若是某一特定元素大於或者小於中間元素,則在數組大於或小於中間元素的那一半中查找,並且跟開始同樣從中間元素開始比較。若是在某一步驟數組爲空,則表明找不到。這種搜索算法每一次比較都使搜索範圍縮小一半。折半搜索每次把搜索區域減小一半,時間複雜度爲Ο(logn) 。
算法五:BFPRT(線性查找算法)
BFPRT算法解決的問題十分經典,即從某n個元素的序列中選出第k大(第k小)的元素,經過巧妙的分析,BFPRT能夠保證在最壞狀況下仍爲線性時間複雜度。該算法的思想與快速排序思想類似,固然,爲使得算法在最壞狀況下,依然能達到o(n)的時間複雜度,五位算法做者作了精妙的處理。
算法步驟:
(1) 將n個元素每5個一組,分紅n/5(上界)組。
(2) 取出每一組的中位數,任意排序方法,好比插入排序。
(3) 遞歸的調用selection算法查找上一步中全部中位數的中位數,設爲x,偶數箇中位數的狀況下設定爲選取中間小的一個。
(4) 用x來分割數組,設小於等於x的個數爲k,大於x的個數即爲n-k。
(5) 若i==k,返回x;若i<k,在小於x的元素中遞歸查找第i小的元素;若i>k,在大於x的元素中遞歸查找第i-k小的元素。
終止條件:n=1時,返回的便是i小元素。
詳細介紹:
尋找最小(最大)的k個數
算法六:DFS(深度優先搜索)
深度優先搜索算法(Depth-First-Search),是搜索算法的一種。它沿着樹的深度遍歷樹的節點,儘量深的搜索樹的分支。當節點v的全部邊都己被探尋過,搜索將回溯到發現節點v的那條邊的起始節點。這一過程一直進行到已發現從源節點可達的全部節點爲止。若是還存在未被發現的節點,則選擇其中一個做爲源節點並重復以上過程,整個進程反覆進行直到全部節點都被訪問爲止。DFS屬於盲目搜索。
深度優先搜索是圖論中的經典算法,利用深度優先搜索算法能夠產生目標圖的相應拓撲排序表,利用拓撲排序表能夠方便的解決不少相關的圖論問題,如最大路徑問題等等。通常用堆數據結構來輔助實現DFS算法。
深度優先遍歷圖算法步驟:
(1) 訪問頂點v;
(2) 依次從v的未被訪問的鄰接點出發,對圖進行深度優先遍歷;直至圖中和v有路徑相通的頂點都被訪問;
(3) 若此時圖中尚有頂點未被訪問,則從一個未被訪問的頂點出發,從新進行深度優先遍歷,直到圖中全部頂點均被訪問過爲止。
上述描述可能比較抽象,舉個實例:
DFS 在訪問圖中某一塊兒始頂點 v 後,由 v 出發,訪問它的任一鄰接頂點 w1;再從 w1 出發,訪問與 w1鄰 接但尚未訪問過的頂點 w2;而後再從 w2 出發,進行相似的訪問,… 如此進行下去,直至到達全部的鄰接頂點都被訪問過的頂點 u 爲止。
接着,退回一步,退到前一次剛訪問過的頂點,看是否還有其它沒有被訪問的鄰接頂點。若是有,則訪問此頂點,以後再今後頂點出發,進行與前述相似的訪問;若是沒有,就再退回一步進行搜索。重複上述過程,直到連通圖中全部頂點都被訪問過爲止。
算法七:BFS(廣度優先搜索)
廣度優先搜索算法(Breadth-First-Search),是一種圖形搜索算法。簡單的說,BFS是從根節點開始,沿着樹(圖)的寬度遍歷樹(圖)的節點。若是全部節點均被訪問,則算法停止。BFS一樣屬於盲目搜索。通常用隊列數據結構來輔助實現BFS算法。
算法步驟:
(1) 首先將根節點放入隊列中。
(2) 從隊列中取出第一個節點,並檢驗它是否爲目標。
若是找到目標,則結束搜尋並回傳結果。
不然將它全部還沒有檢驗過的直接子節點加入隊列中。
(3) 若隊列爲空,表示整張圖都檢查過了——亦即圖中沒有欲搜尋的目標。結束搜尋並回傳「找不到目標」。
(4) 重複步驟2。
算法八:Dijkstra算法
戴克斯特拉算法(Dijkstra’s algorithm)是由荷蘭計算機科學家艾茲赫爾·戴克斯特拉提出。迪科斯徹算法使用了廣度優先搜索解決非負權有向圖的單源最短路徑問題,算法最終獲得一個最短路徑樹。該算法經常使用於路由算法或者做爲其餘圖算法的一個子模塊。
該算法的輸入包含了一個有權重的有向圖 G,以及G中的一個來源頂點 S。咱們以 V 表示 G 中全部頂點的集合。每個圖中的邊,都是兩個頂點所造成的有序元素對。(u, v) 表示從頂點 u 到 v 有路徑相連。咱們以 E 表示G中全部邊的集合,而邊的權重則由權重函數 w: E → [0, ∞] 定義。所以,w(u, v) 就是從頂點 u 到頂點 v 的非負權重(weight)。邊的權重能夠想像成兩個頂點之間的距離。任兩點間路徑的權重,就是該路徑上全部邊的權重總和。已知有 V 中有頂點 s 及 t,Dijkstra 算法能夠找到 s 到 t的最低權重路徑(例如,最短路徑)。這個算法也能夠在一個圖中,找到從一個頂點 s 到任何其餘頂點的最短路徑。對於不含負權的有向圖,Dijkstra算法是目前已知的最快的單源最短路徑算法。
算法步驟:
(1) 初始時令 S={V0},T={其他頂點},T中頂點對應的距離值
若存在<V0,Vi>,d(V0,Vi)爲<V0,Vi>弧上的權值
若不存在<V0,Vi>,d(V0,Vi)爲∞
(2) 從T中選取一個其距離值爲最小的頂點W且不在S中,加入S
(3) 對其他T中頂點的距離值進行修改:若加進W做中間頂點,從V0到Vi的距離值縮短,則修改此距離值
重複上述步驟二、3,直到S中包含全部頂點,即W=Vi爲止
算法九:動態規劃算法
動態規劃(Dynamic programming)是一種在數學、計算機科學和經濟學中使用的,經過把原問題分解爲相對簡單的子問題的方式求解複雜問題的方法。 動態規劃經常適用於有重疊子問題和最優子結構性質的問題,動態規劃方法所耗時間每每遠少於樸素解法。
動態規劃背後的基本思想很是簡單。大體上,若要解一個給定問題,咱們須要解其不一樣部分(即子問題),再合併子問題的解以得出原問題的解。 一般許多子問題很是類似,爲此動態規劃法試圖僅僅解決每一個子問題一次,從而減小計算量: 一旦某個給定子問題的解已經算出,則將其記憶化存儲,以便下次須要同一個子問題解之時直接查表。 這種作法在重複子問題的數目關於輸入的規模呈指數增加時特別有用。
關於動態規劃最經典的問題當屬揹包問題。
算法步驟:
(1) 最優子結構性質。若是問題的最優解所包含的子問題的解也是最優的,咱們就稱該問題具備最優子結構性質(即知足最優化原理)。最優子結構性質爲動態規劃算法解決問題提供了重要線索。
(2) 子問題重疊性質。子問題重疊性質是指在用遞歸算法自頂向下對問題進行求解時,每次產生的子問題並不老是新問題,有些子問題會被重複計算屢次。動態規劃算法正是利用了這種子問題的重疊性質,對每個子問題只計算一次,而後將其計算結果保存在一個表格中,當再次須要計算已經計算過的子問題時,只是在表格中簡單地查看一下結果,從而得到較高的效率。
算法十:樸素貝葉斯分類算法 樸素貝葉斯分類算法是一種基於貝葉斯定理的簡單機率分類算法。貝葉斯分類的基礎是機率推理,就是在各類條件的存在不肯定,僅知其出現機率的狀況下,如何完成推理和決策任務。機率推理是與肯定性推理相對應的。而樸素貝葉斯分類器是基於獨立假設的,即假設樣本每一個特徵與其餘特徵都不相關。 樸素貝葉斯分類器依靠精確的天然機率模型,在有監督學習的樣本集中能獲取得很是好的分類效果。在許多實際應用中,樸素貝葉斯模型參數估計使用最大似然估計方法,換言之樸素貝葉斯模型能工做並無用到貝葉斯機率或者任何貝葉斯模型。 儘管是帶着這些樸素思想和過於簡單化的假設,但樸素貝葉斯分類器在不少複雜的現實情形中仍可以取得至關好的效果。