大數據最核心的關鍵技術——32個算法

奧地利符號計算研究所的Christoph Koutschan博士在本身的頁面上發佈了一篇文章,提到他作了一個調查,參與者大多數是計算機科學家,他請這些科學家投票選出最重要的算法,如下是此次調查的結果,按照英文名稱字母順序排序。程序員

一、A* 搜索算法——圖形搜索算法,從給定起點到給定終點計算出路徑。其中使用了一種啓發式的估算,爲每一個節點估算經過該節點的最佳路徑,並以之爲各個地點排定次序。算法以獲得的次序訪問這些節點。所以,A*搜索算法是最佳優先搜索的範例。面試

二、集束搜索(又名定向搜索,Beam Search)——最佳優先搜索算法的優化。使用啓發式函數評估它檢查的每一個節點的能力。不過,集束搜索只能在每一個深度中發現最前面的m個最符合條件的節點,m是固定數字——集束的寬度。算法

三、二分查找(Binary Search)——在線性數組中找特定值的算法,每一個步驟去掉一半不符合要求的數據。數組

四、分支界定算法(Branch and Bound)——在多種最優化問題中尋找特定最優化解決方案的算法,特別是針對離散、組合的最優化。安全

五、Buchberger算法——一種數學算法,可將其視爲針對單變量最大公約數求解的歐幾里得算法和線性系統中高斯消元法的泛化。網絡

六、數據壓縮——採起特定編碼方案,使用更少的字節數(或是其餘信息承載單元)對信息編碼的過程,又叫來源編碼。數據結構

七、Diffie-Hellman密鑰交換算法——一種加密協議,容許雙方在事先不瞭解對方的狀況下,在不安全的通訊信道中,共同創建共享密鑰。該密鑰之後可與一個對稱密碼一塊兒,加密後續通信。架構

八、Dijkstra算法——針對沒有負值權重邊的有向圖,計算其中的單一塊兒點最短算法。dom

九、離散微分算法(Discrete differentiation)。分佈式

十、動態規劃算法(Dynamic Programming)——展現互相覆蓋的子問題和最優子架構算法

十一、歐幾里得算法(Euclidean algorithm)——計算兩個整數的最大公約數。最古老的算法之一,出如今公元前300前歐幾里得的《幾何本來》。

十二、指望-最大算法(Expectation-maximization algorithm,又名EM-Training)——在統計計算中,指望-最大算法在機率模型中尋找可能性最大的參數估算值,其中模型依賴於未發現的潛在變量。EM在兩個步驟中交替計算,第一步是計算指望,利用對隱藏變量的現有估計值,計算其最大可能估計值;第二步是最大化,最大化在第一步上求得的最大可能值來計算參數的值。

1三、快速傅里葉變換(Fast Fourier transform,FFT)——計算離散的傅里葉變換(DFT)及其反轉。該算法應用範圍很廣,從數字信號處理到解決偏微分方程,到快速計算大整數乘積。

1四、梯度降低(Gradient descent)——一種數學上的最優化算法。

1五、哈希算法(Hashing)。

1六、堆排序(Heaps)。

1七、Karatsuba乘法——須要完成上千位整數的乘法的系統中使用,好比計算機代數系統和大數程序庫,若是使用長乘法,速度太慢。該算法發現於1962年。

1八、LLL算法(Lenstra-Lenstra-Lovasz lattice reduction)——以格規約(lattice)基數爲輸入,輸出短正交向量基數。LLL算法在如下公共密鑰加密方法中有大量使用:揹包加密系統(knapsack)、有特定設置的RSA加密等等。

1九、最大流量算法(Maximum flow)——該算法試圖從一個流量網絡中找到最大的流。它優點被定義爲找到這樣一個流的值。最大流問題能夠看做更復雜的網絡流問題的特定狀況。最大流與網絡中的界面有關,這就是最大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一個流網絡中的最大流。

20、合併排序(Merge Sort)。

2一、牛頓法(Newton's method)——求非線性方程(組)零點的一種重要的迭代法。

2二、Q-learning學習算法——這是一種經過學習動做值函數(action-value function)完成的強化學習算法,函數採起在給定狀態的給定動做,並計算出指望的效用價值,在此後遵循固定的策略。Q-leanring的優點是,在不須要環境模型的狀況下,能夠對比可採納行動的指望效用。

2三、兩次篩法(Quadratic Sieve)——現代整數因子分解算法,在實踐中,是目前已知第二快的此類算法(僅次於數域篩法Number Field Sieve)。對於110位如下的十位整數,它還是最快的,並且都認爲它比數域篩法更簡單。

2四、RANSAC——是「RANdom SAmple Consensus」的縮寫。該算法根據一系列觀察獲得的數據,數據中包含異常值,估算一個數學模型的參數值。其基本假設是:數據包含非異化值,也就是可以經過某些模型參數解釋的值,異化值就是那些不符合模型的數據點。

2五、RSA——公鑰加密算法。首個適用於以簽名做爲加密的算法。RSA在電商行業中仍大規模使用,你們也相信它有足夠安全長度的公鑰。

2六、Schönhage-Strassen算法——在數學中,Schönhage-Strassen算法是用來完成大整數的乘法的快速漸近算法。其算法複雜度爲:O(N log(N) log(log(N))),該算法使用了傅里葉變換。

2七、單純型算法(Simplex Algorithm)——在數學的優化理論中,單純型算法是經常使用的技術,用來找到線性規劃問題的數值解。線性規劃問題包括在一組實變量上的一系列線性不等式組,以及一個等待最大化(或最小化)的固定線性函數。

2八、奇異值分解(Singular value decomposition,簡稱SVD)——在線性代數中,SVD是重要的實數或複數矩陣的分解方法,在信號處理和統計中有多種應用,好比計算矩陣的僞逆矩陣(以求解最小二乘法問題)、解決超定線性系統(overdetermined linear systems)、矩陣逼近、數值天氣預報等等。

2九、求解線性方程組(Solving a system of linear equations)——線性方程組是數學中最古老的問題,它們有不少應用,好比在數字信號處理、線性規劃中的估算和預測、數值分析中的非線性問題逼近等等。求解線性方程組,可使用高斯—約當消去法(Gauss-Jordan elimination),或是柯列斯基分解( Cholesky decomposition)。

30、Strukturtensor算法——應用於模式識別領域,爲全部像素找出一種計算方法,看看該像素是否處於同質區域( homogenous region),看看它是否屬於邊緣,仍是是一個頂點。

3一、合併查找算法(Union-find)——給定一組元素,該算法經常用來把這些元素分爲多個分離的、彼此不重合的組。不相交集(disjoint-set)的數據結構能夠跟蹤這樣的切分方法。合併查找算法能夠在此種數據結構上完成兩個有用的操做:

查找:判斷某特定元素屬於哪一個組。

合併:聯合或合併兩個組爲一個組。

3二、維特比算法(Viterbi algorithm)——尋找隱藏狀態最有可能序列的動態規劃算法,這種序列被稱爲維特比路徑,其結果是一系列能夠觀察到的事件,特別是在隱藏的Markov模型中。

以上就是Christoph博士對於最重要的算法的調查結果。大家熟悉哪些算法?又有哪些算法是大家常用的?

結語

感謝您的觀看,若有不足之處,歡迎批評指正。

若是有對大數據感興趣的小夥伴或者是從事大數據的老司機能夠加羣:

658558542    (☛點擊便可加入羣聊

裏面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,海量數據高級分析語言,海量數據存儲分佈式存儲,以及海量數據分析分佈式計算等部分,送給每一位大數據小夥伴,這裏不止是小白彙集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一塊兒進羣學習交流,共同進步!

最後祝福全部遇到瓶頸的大數據程序員們突破本身,祝福你們在日後的工做與面試中一切順利。

相關文章
相關標籤/搜索