海量數據處理(轉，簡化)

時間 2019-11-11

原文原文鏈接

轉自：http://www.cnblogs.com/v-July-v/archive/2012/03/22/2413055.htmlhtml

做者：July
出處：結構之法算法之道blog面試

何謂海量數據處理？

　　所謂海量數據處理，其實很簡單，海量，海量，何謂海量，就是數據量太大，因此致使要麼是沒法在較短期內迅速解決，要麼是數據太大，致使沒法一次性裝入內存。算法

那解決辦法呢?針對時間，咱們能夠採用巧妙的算法搭配合適的數據結構，如Bloom filter/Hash/bit-map/堆/數據庫或倒排索引/trie/(時間)，針對空間，無非就一個辦法：大而化小：分而治之/hash映射(空間)，你不是說規模太大嘛，那簡單啊，就把規模大化爲規模小的，各個擊破不就完了嘛。數據庫

至於所謂的單機及集羣問題，通俗點來說，單機就是處理裝載數據的機器有限(只要考慮cpu，內存，硬盤的數據交互)，而集羣，機器有多輛，適合分佈式處理，並行計算(更多考慮節點和節點間的數據交互)。數組

解決方案：數據結構

分而治之/hash映射 + hash統計 + 堆/快速/歸併排序；
雙層桶劃分
Bloom filter/Bitmap；
Trie樹/數據庫/倒排索引；
外排序；
分佈式處理之Hadoop/Mapreduce。

密匙1、分而治之/Hash映射 + Hash統計 + 堆/快速/歸併排序

　　海量日誌數據，提取出某日訪問百度次數最多的那個IP。

　　既然是海量數據處理，那麼可想而知，給咱們的數據那就必定是海量的。針對這個數據的海量，咱們如何着手呢?對的，無非就是分而治之/hash映射 + hash統計 + 堆/快速/歸併排序，說白了，就是先映射後劃分，然後統計，最後排序：app

(空間)分而治之/hash映射：針對數據太大，內存受限，只能是：把大文件化成(取模映射)小文件，即16字方針：大而化小，各個擊破，縮小規模，逐個解決
(時間)hash統計：當大文件轉化了小文件，那麼咱們即可以採用常規的Hashmap(ip，value)來進行頻率統計。
堆/快速排序：統計完了以後，便進行排序(可採起堆排序)，獲得次數最多的IP。

具體而論，則是：「首先是這一天，而且是訪問百度的日誌中的IP取出來，逐個寫入到一個大文件中。注意到IP是32位的，最多有個2^32個IP。一樣能夠採用映射的方法，好比模1000，把整個大文件映射爲1000個小文件，再找出每一個小文中出現頻率最大的IP（能夠採用Hash_map進行頻率統計，而後再找出頻率最大的幾個）及相應的頻率。而後再在這1000個最大的IP中，找出那個頻率最大的IP，即爲所求。」--十道海量數據處理面試題與十個方法大總結。分佈式

密匙2、雙層桶劃分

　　雙層桶劃分----其實本質上仍是分而治之的思想，重在「分」的技巧上！
　　適用範圍：第k大，中位數，不重複或重複的數字
　　基本原理及要點：由於元素範圍很大，不能利用直接尋址表，因此經過屢次劃分，逐步肯定範圍，而後最後在一個能夠接受的範圍內進行。能夠經過屢次縮小，雙層只是一個例子。
　　擴展：
　　問題實例：函數

1).2.5億個整數中找出不重複的整數的個數，內存空間不足以容納這2.5億個整數。
　　有點像鴿巢原理，整數個數爲2^32,也就是，咱們能夠將這2^32個數，劃分爲2^8個區域(好比用單個文件表明一個區域)，而後將數據分離到不一樣的區域，而後不一樣的區域在利用bitmap就能夠直接解決了。也就是說只要有足夠的磁盤空間，就能夠很方便的解決。oop

2).5億個int找它們的中位數。
　　這個例子比上面那個更明顯。首先咱們將int劃分爲2^16個區域，而後讀取數據統計落到各個區域裏的數的個數，以後咱們根據統計結果就能夠判斷中位數落到那個區域，同時知道這個區域中的第幾大數恰好是中位數。而後第二次掃描咱們只統計落在這個區域中的那些數就能夠了。
　　實際上，若是不是int是int64，咱們能夠通過3次這樣的劃分便可下降到能夠接受的程度。便可以先將int64分紅2^24個區域，而後肯定區域的第幾大數，在將該區域分紅2^20個子區域，而後肯定是子區域的第幾大數，而後子區域裏的數的個數只有2^20，就能夠直接利用direct addr table進行統計了。

密匙三：Bloom filter/Bitmap

Bloom filter

　　適用範圍：能夠用來實現數據字典，進行數據的判重，或者集合求交集
　　基本原理及要點：
　　對於原理來講很簡單，位數組+k個獨立hash函數。將hash函數對應的值的位數組置1，查找時若是發現全部hash函數對應位都是1說明存在，很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，由於該關鍵字對應的位會牽動到其餘的關鍵字。

　　因此一個簡單的改進就是 counting Bloom filter，用一個counter數組代替位數組，就能夠支持刪除了(改進二：使用多個Hash函數來檢驗)。
　　還有一個比較重要的問題，如何根據輸入元素個數n，肯定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的狀況下，m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些，由於還要保證bit數組裏至少一半爲0，則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2爲底的對數)。
　　舉個例子咱們假設錯誤率爲0.01，則此時m應大概是n的13倍。這樣k大概是8個。
　　注意這裏m與n的單位不一樣，m是bit爲單位，而n則是以元素個數爲單位(準確的說是不一樣元素的個數)。一般單個元素的長度都是有不少bit的。因此使用bloom filter內存上一般都是節省的。
　　擴展：
　　Bloom filter將集合中的元素映射到位數組中，用k（k爲哈希函數個數）個映射位是否全1表示元素在不在這個集合中。Counting bloom filter（CBF）將位數組中的每一位擴展爲一個counter，從而支持了元素的刪除操做。Spectral Bloom Filter（SBF）將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。　　

問題實例：給你A,B兩個文件，各存放50億條URL，每條URL佔用64字節，內存限制是4G，讓你找出A,B文件共同的URL。若是是三個乃至n個文件呢？

　　根據這個問題咱們來計算下內存的佔用，4G=2^32大概是40億*8大概是340億，n=50億，若是按出錯率0.01算須要的大概是650億個bit。如今可用的是340億，相差並很少，這樣可能會使出錯率上升些。另外若是這些urlip是一一對應的，就能夠轉換成ip，則大大簡單了。

同時，上文的第5題：給定a、b兩個文件，各存放50億個url，每一個url各佔64字節，內存限制是4G，讓你找出a、b文件共同的url？若是容許有必定的錯誤率，可使用Bloom filter，4G內存大概能夠表示340億bit。將其中一個文件中的url使用Bloom filter映射爲這340億bit，而後挨個讀取另一個文件的url，檢查是否與Bloom filter，若是是，那麼該url應該是共同的url（注意會有必定的錯誤率）。

Bitmap

至於什麼是Bitmap，請看此文：http://blog.csdn.net/v_july_v/article/details/6685962。下面關於Bitmap的應用，直接上題，以下第九、10道：

九、在2.5億個整數中找出不重複的整數，注，內存不足以容納這2.5億個整數。

方案1：採用2-Bitmap（每一個數分配2bit，00表示不存在，01表示出現一次，10表示屢次，11無心義）進行，共需內存2^32 * 2 bit=1 GB內存，還能夠接受。而後掃描這2.5億個整數，查看Bitmap中相對應位，若是是00變01，01變10，10保持不變。所描完過後，查看bitmap，把對應位是01的整數輸出便可。
方案2：也可採用與第1題相似的方法，進行劃分小文件的方法。而後在小文件中找出不重複的整數，並排序。而後再進行歸併，注意去除重複的元素。

十、騰訊面試題：給40億個不重複的unsigned int的整數，沒排過序的，而後再給一個數，如何快速判斷這個數是否在那40億個數當中？
方案1：oo，申請512M的內存，一個bit位表明一個unsigned int值。讀入40億個數，設置相應的bit位，讀入要查詢的數，查看相應bit位是否爲1，爲1表示存在，爲0表示不存在。

密匙4、Trie樹/數據庫/倒排索引

Trie樹

　　適用範圍：數據量大，重複多，可是數據種類小能夠放入內存
　　基本原理及要點：實現方式，節點孩子的表示方式
　　擴展：壓縮實現。

　　問題實例：

有10個文件，每一個文件1G，每一個文件的每一行都存放的是用戶的query，每一個文件的query均可能重複。要你按照query的頻度排序。
1000萬字符串，其中有些是相同的(重複),須要把重複的所有去掉，保留沒有重複的字符串。請問怎麼設計和實現？
尋找熱門查詢：查詢串的重複度比較高，雖然總數是1千萬，但若是除去重複後，不超過3百萬個，每一個不超過255字節。
上面的第8題：一個文本文件，大約有一萬行，每行一個詞，要求統計出其中最頻繁出現的前10個詞。其解決方法是：用trie樹統計每一個詞出現的次數，時間複雜度是O(n*le)（le表示單詞的平準長度），而後是找出出現最頻繁的前10個詞。

更多有關Trie樹的介紹，請參見此文：http://www.cnblogs.com/v-July-v/archive/2011/10/22/2316412.html

數據庫索引
　　適用範圍：大數據量的增刪改查
　　基本原理及要點：利用數據的設計實現方法，對海量數據的增刪改查進行處理。

倒排索引(Inverted index)
　　適用範圍：搜索引擎，關鍵字查詢
　　基本原理及要點：爲什麼叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
　以英文爲例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
咱們就能獲得下面的反向文件索引：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
　檢索的條件"what","is"和"it"將對應集合的交集。

　　正向索引開發出來用來存儲每一個文檔的單詞的列表。正向索引的查詢每每知足每一個文檔有序頻繁的全文查詢和每一個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔佔據了中心的位置，每一個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關係。
　　擴展：
　　問題實例：文檔檢索系統，查詢那些文件包含了某單詞，好比常見的學術論文的關鍵字搜索。

關於倒排索引的應用，更多請參見：第二十3、四章：楊氏矩陣查找，倒排索引關鍵詞Hash不重複編碼實踐，及第二十六章：基於給定的文檔生成倒排索引的編碼與實踐。

密匙5、外排序

　　適用範圍：大數據的排序，去重
　　基本原理及要點：外排序的歸併方法，置換選擇敗者樹原理，最優歸併樹
　　擴展：
　　問題實例：
　　1).有一個1G大小的一個文件，裏面每一行是一個詞，詞的大小不超過16個字節，內存限制大小是1M。返回頻數最高的100個詞。
　　這個數據具備很明顯的特色，詞的大小爲16個字節，可是內存只有1m作hash有些不夠，因此能夠用來排序。內存能夠當輸入緩衝區使用。

關於多路歸併算法及外排序的具體應用場景，請參見此文：第十章、如何給10^7個數據量的磁盤文件排序。

密匙6、分佈式處理 Mapreduce

適用範圍：數據量大，可是數據種類小能夠放入內存
　　基本原理及要點：將數據交給不一樣的機器去處理，數據劃分，結果歸約。
　　擴展：
　　問題實例：

The canonical example application of MapReduce is a process to count the appearances of each different word in a set of documents:
海量數據分佈在100臺電腦中，想個辦法高效統計出這批數據的TOP10。
一共有N個機器，每一個機器上有N個數。每一個機器最多存O(N)個數並對它們操做。如何找到N^2個數的中數(median)