面對海量的數據，咱們應該如何處理？

時間 2020-02-08

原文原文鏈接

1、海量數據處理

所謂海量數據處理，無非就是基於海量數據上的存儲、處理、操做。何謂海量，就是數據量太大，因此致使要麼是沒法在較短期內迅速解決，要麼是數據太大，導致沒法一次性裝入內存。 git

那解決辦法呢?github

針對時間，咱們能夠採用巧妙的算法搭配合適的數據結構，如Bloom filter/Hash/bit- map/堆/trie樹。針對空間，無非就一個辦法：大而化小，分而治之（hash映射）。面試

相關內容後續GitHub更新
（順手留下GitHub連接，須要獲取相關面試等內容的能夠本身去找）
https://github.com/xiangjiana/Android-MS
(VX：mm14525201314)算法

2、算法/數據結構基礎

1.Bloom Filter

Bloom Filter（BF）是一種空間效率很高的隨機數據結構，它利用位數組很簡潔地表示一個集合，並能判斷一個元素是否屬於這個集合。它是一個判斷元素是否存在集合的快速的機率算法。Bloom Filter有可能會出現錯誤判斷，但不會漏掉判斷。也就是Bloom Filter判斷元素再也不集合，那確定不在。若是判斷元素存在集合中，有一定的機率判斷錯誤。所以，Bloom Filter不適合那些「零錯誤」的應用場合。數組

而在能容忍低錯誤率的應用場合下，Bloom Filter比其餘常見的算法（如hash，折半查找）極大節省了空間。數據結構

適用範圍: 能夠用來實現數據字典，進行數據的判重，或者集合求交集ide

2.Hash

Hash，通常翻譯作「散列」，也有直接音譯爲「哈希」的，就是把任意長度的輸入（又叫作預映射， pre-image），經過散列算法，變換成固定長度的輸出，該輸出就是散列值。這種轉換是一種壓縮映射，也就是，散列值的空間一般遠小於輸入的空間，不一樣的輸入可能會散列成相同的輸出，而不可能從散列值來惟一的肯定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。函數

3. Bit-map

所謂的Bit-map就是用一個bit位來標記某個元素對應的值。因爲採用了Bit爲單位來存儲數據，所以在存儲空間方面，能夠大大節省。若是說了這麼多還沒明白什麼是Bit-map，那麼咱們來看一個具體的例子，假設我們要對0-7內的5個元素(4,7,2,5,3)排序（這裏假設這些元素沒有重複）。那麼咱們就能夠採用Bit-map的方法來達到排序的目的。要表示8個數，咱們就只須要8個 Bit（1Bytes），首先咱們開闢1Byte的空間，將這些空間的全部Bit位都置爲0(以下圖：)

而後遍歷這5個元素，首先第一個元素是4，那麼就把4對應的位置爲1（能夠這樣操做 p+(i/8)|(0x01<<(i%8)) 固然了這裏的操做涉及到Big-ending和Little-ending的情況，這裏默認爲Big-ending）,由於是從零開始的，因此要把第五位置爲一（以下圖）：

而後再處理第二個元素7，將第八位置爲1,，接着再處理第三個元素，一直到最後處理完全部的元素，將相應的位置爲1，這時候的內存的Bit位的狀態以下：
大數據

4.堆

堆是一種特殊的二叉樹，具有如下兩種性質 1）每一個節點的值都大於（或者都小於，稱爲最小堆）其子節點的值 2）樹是徹底平衡的，而且最後一層的樹葉都在最左邊這樣就定義了一個最大堆。以下圖用一個數組來表示堆：
優化

5.trie樹

下面咱們有and,as,at,cn,com這些關鍵詞，那麼如何構建trie樹呢？

從上面的圖中，咱們或多或少的能夠發現一些好玩的特性。

第一：根節點不包含字符，除根節點外的每個子節點都包含一個字符。第二：從根節點到某一節點，路徑上通過的字符鏈接起來，就是該節點對應的字符串。
第三：每一個單詞的公共前綴做爲一個字符節點保存。
適用範圍： 前綴統計，詞頻統計。

6.外排序

適用範圍: 大數據的排序，去重
基本原理及要點：
外部排序的兩個獨立階段：

1）首先按內存大小，將外存上含n個記錄的文件分紅若干長度L的子文件或段。依次讀入內存並利用有效的內部排序對他們進行排序，並將排序後獲得的有序字文件從新寫入外存，一般稱這些子文件爲歸併段。
2）對這些歸併段進行逐趟歸併，使歸併段逐漸由小到大，直至獲得整個有序文件爲之。
外排序的優化方法： 置換選擇敗者樹原理，最優歸併樹

3、面試問題解決

一、海量日誌數據，提取出某日訪問百度次數最多的那個IP。
算法思想： 分而治之+Hash

①.IP地址最多有2^32=4G種取值狀況，因此不能徹底加載到內存中處理； ②.能夠考慮採用「分而治之」的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分別存儲到1024個小文件中。這樣，每一個小文件最多包含4MB個IP地址；
③.對於每個小文件，能夠構建一個IP爲key，出現次數爲value的Hash map，同時記錄當前出現次數最多的那個IP地址；
④.能夠獲得1024個小文件中的出現次數最多的IP，再依據常規的排序算法獲得整體上出現次數最多的IP；

2丶搜索引擎會經過日誌文件把用戶每次檢索使用的全部檢索串都記錄下來，每一個查詢串的長度爲1-255字節。假設目前有一千萬個記錄（這些查詢串的重複度比較高，雖然總數是1千萬，但若是除去重複後，不超過3百萬個。一個查詢串的重複度越高，說明查詢它的用戶越多，也就是越熱門。），請你統計最熱門的 10個查詢串，要求使用的內存不能超過1G。

能夠在內存中處理，典型的Top K算法
算法思想： hashmap+堆

①.先對這批海量數據預處理，在O（N）的時間內用Hash表完成統計；
②.藉助堆這個數據結構，找出Top K，時間複雜度爲O(N*logK)。或者：採用trie樹，關鍵字域存該查詢串出現的次數，沒有出現爲0。最後用10個元素的最小推來對出現頻率進行排序。

三、有一個1G大小的一個文件，裏面每一行是一個詞，詞的大小不超過16字節，內存限制大小是1M。返回頻數最高的100個詞。
算法思想： 分而治之 + hash統計 + 堆排序

①.順序讀文件中，對於每一個詞x，取hash(x)%5000，而後按照該值存到5000個小文件（記爲x0,x1,...x4999）中。這樣每一個文件大概是200k左右。若是其中的有的文件超過了1M大小，還能夠按照相似的方法繼續往下分，直到分解獲得的小文件的大小都不超過1M。
②.對每一個小文件，採用trie樹/hash_map等統計每一個文件中出現的詞以及相應的頻率。
③.取出出現頻率最大的100個詞（能夠用含100個結點的最小堆）後，再把100個詞及相應的頻率存入文件，這樣又獲得了5000個文件。最後就是把這5000個文件進行歸併（相似於歸併排序）的過程了。

四、有10個文件，每一個文件1G，每一個文件的每一行存放的都是用戶的query，每一個文件的query均可能重複。要求你按照query的頻度排序。

方案1：算法思想：分而治之 + hash統計 + 堆排序
順序讀取10個文件，按照hash(query)%10的結果將query寫入到另外10個文件中。這樣新生成的文件每一個的大小大約也1G，大於1G繼續按照上述思路分。
找一臺內存在2G左右的機器，依次對用hash_map(query, query_count)來統計每一個 query出現的次數。利用快速/堆/歸併排序按照出現次數進行排序。將排序好的 query和對應的query_cout輸出到文件中。這樣獲得了10個排好序的文件（記爲）。
對這10個文件進行歸併排序（內排序與外排序相結合）。

方案2：算法思想：hashmap+堆
通常query的總量是有限的，只是重複的次數比較多而已，可能對於全部的query，一次性就能夠加入到內存了。這樣，咱們就能夠採用trie樹/hash_map等直接來統計每一個query出現的次數，而後按出現次數作快速/堆/歸併排序就能夠了。

五、給定a、b兩個文件，各存放50億個url，每一個url各佔64字節，內存限制是4G，讓你找出a、b文件共同的url

方案1： 能夠估計每一個文件安的大小爲5G×64=320G，遠遠大於內存限制的4G。所以不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。

算法思想： 分而治之 + hash統計

遍歷文件a，對每一個url求取hash(url)%1000，而後根據所取得的值將url分別存儲到 1000個小文件（記爲a0,a1,...,a999）中。這樣每一個小文件的大約爲300M。

遍歷文件b，採起和a相同的方式將url分別存儲到1000小文件（記爲 b0,b1,...,b999）。這樣處理後，全部可能相同的url都在對應的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不對應的小文件不可能有相同的url。而後咱們只要求出1000對小文件中相同的url便可。

求每對小文件中相同的url時，能夠把其中一個小文件的url存儲到hash_set中。而後遍歷另外一個小文件的每一個url，看其是否在剛纔構建的hash_set中，若是是，那麼就是共同的url，存到文件裏面就能夠了。

方案2： 若是容許有必定的錯誤率，可使用Bloom filter，4G內存大概能夠表示 340億bit。將其中一個文件中的url使用Bloom filter映射爲這340億bit，而後挨個讀取另一個文件的url，檢查是否與Bloom filter，若是是，那麼該url應該是共同的 url（注意會有必定的錯誤率）。

六、在2.5億個整數中找出不重複的整數，注，內存不足以容納這 2.5億個整數。

採用2-Bitmap（每一個數分配2bit，00表示不存在，01表示出現一次，10表示屢次， 11無心義）進行，共需內存2^32 * 2 bit=1 GB內存，還能夠接受。而後掃描這2.5億個整數，查看Bitmap中相對應位，若是是00變01，01變10，10保持不變。所描完過後，查看bitmap，把對應位是01的整數輸出便可。

七、給40億個不重複的unsigned int的整數，沒排過序的，而後再給一個數，如何快速判斷這個數是否在那40億個數當中？

方案1： 申請512M的內存，一個bit位表明一個unsigned int值。讀入40億個數，設置相應的bit位，讀入要查詢的數，查看相應bit位是否爲1，爲1表示存在，爲0表示不存在。

方案2： 由於2^32爲40億多，因此給定一個數可能在，也可能不在其中；

這裏咱們把40億個數中的每個用32位的二進制來表示

假設這40億個數開始放在一個文件中。

而後將這40億個數分紅兩類: