面試筆試問題：大數據量，海量數據處理方法總結

時間 2019-11-11

原文原文鏈接

面試筆試問題：大數據量，海量數據處理方法總結面試

Hashing 算法

適用範圍：快速查找，刪除的基本數據結構，一般須要總數據量能夠放入內存
基本原理及要點： hash函數選擇，針對字符串，整數，排列，具體相應的hash方法。
碰撞處理，一種是open hashing，也稱爲拉鍊法；另外一種就是closed hashing，也稱開地址法，opened addressing。數據庫

數組的特色是：尋址容易，插入和刪除困難；而鏈表的特色是：尋址困難，插入和刪除容易。那麼咱們能不能綜合二者的特性，作出一種尋址容易，插入刪除也容易的數據結構？答案是確定的，這就是咱們要提起的哈希表，哈希表有多種不一樣的實現方法，最經常使用的一種方法——拉鍊法，咱們能夠理解爲「鏈表的數組」數組

bit-map 數據結構

適用範圍：可進行數據的快速查找，判重，刪除，通常來講數據範圍是int的10倍如下
基本原理及要點：使用bit數組來表示某些元素是否存在，好比8位電話號碼
擴展：bloom filter能夠看作是對bit-map的擴展分佈式

雙層桶劃分函數

事實上，與其說雙層桶劃分是一種數據結構，不如說它是一種算法設計思想。面對一堆大量的數據咱們沒法處理的時候，咱們能夠將其分紅一個個小的單元，而後根據必定的策略來處理這些小單元，從而達到目的。 oop

適用範圍：第k大，中位數，不重複或重複的數字
基本原理及要點：由於元素範圍很大，不能利用直接尋址表，因此經過屢次劃分，逐步肯定範圍，而後最後在一個能夠接受的範圍內進行, 分治纔是其根本。
問題實例：大數據

堆搜索引擎

適用範圍：海量數據前n大，而且n比較小，堆能夠放入內存（適合大數據量，求前n小，n的大小比較小的狀況，這樣能夠掃描一遍便可獲得全部的前n元素，效率很高）
擴展：雙堆，一個最大堆與一個最小堆結合，能夠用來維護中位數。
問題實例： 100w個數中找最大的前100個數。

倒排索引(Inverted index)

適用範圍：搜索引擎，關鍵字查詢
基本原理及要點：爲什麼叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文爲例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
咱們就能獲得下面的反向文件索引：
"a":       {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}
檢索的條件"what", "is" 和 "it" 將對應集合的交集。
正向索引開發出來用來存儲每一個文檔的單詞的列表。正向索引的查詢每每知足每一個文檔有序頻繁的全文查詢和每一個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔佔據了中心的位置，每一個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關係。
問題實例：文檔檢索系統，查詢那些文件包含了某單詞，好比常見的學術論文的關鍵字搜索。

1. 分而治之/hash映射 + hash統計 + 堆/快速/歸併排序；

2. 雙層桶劃分

3. Bloom filter/Bitmap；

4. Trie樹/數據庫/倒排索引；

5. 外排序；

6. 分佈式處理之Hadoop/Mapreduce。

分而治之/Hash映射 + Hash統計 + 堆/快速/歸併排序

一、海量日誌數據，提取出某日訪問百度次數最多的那個IP。

IP是32位的，最多有個2^32個IP。一樣能夠採用映射的方法，好比模1000，把整個大文件映射爲1000個小文件，再找出每一個小文中出現頻率最大的IP（能夠採用hash_map進行頻率統計，而後再找出頻率最大的幾個）及相應的頻率。而後再在這1000個最大的IP中，找出那個頻率最大的IP，即爲所求。

二、搜索引擎會經過日誌文件把用戶每次檢索使用的全部檢索串都記錄下來，每一個查詢串的長度爲1-255字節。

假設目前有一千萬個記錄（這些查詢串的重複度比較高，雖然總數是1千萬，但若是除去重複後，不超過3百萬個。一個查詢串的重複度越高，說明查詢它的用戶越多，也就是越熱門。），請你統計最熱門的10個查詢串，要求使用的內存不能超過1G。

第一步借用hash統計進行預處理：先對這批海量數據預處理(維護一個Key爲Query字串，Value爲該Query出現次數，即Hashmap(Query，Value)，每次讀取一個Query，若是該字串不在Table中，那麼加入該字串，而且將Value值設爲1；若是該字串在Table中，那麼將該字串的計數加一便可。最終咱們在O(N)（N爲1千萬，由於要遍歷整個數組一遍才能統計處每一個query出現的次數）的時間複雜度內用Hash表完成了統計；
第二步借用堆排序找出最熱門的10個查詢串：時間複雜度爲N'*logK。維護一個K(該題目中是10)大小的小根堆，而後遍歷3百萬個Query，分別和根元素進行對比（對比value的值），找出10個value值最大的query
最終的時間複雜度是：O（N） + N'*O（logK），（N爲1000萬，N’爲300萬）

或者：採用trie樹，關鍵字域存該查詢串出現的次數，沒有出現爲0。最後用10個元素的最小推來對出現頻率進行排序。

三、有一個1G大小的一個文件，裏面每一行是一個詞，詞的大小不超過16字節，內存限制大小是1M。返回頻數最高的100個詞。

第一步分而治之/hash映射到順序讀文件中，對於每一個詞x，取hash(x)%5000，而後按照該值存到5000個小文件（記爲x0,x1,...x4999）中。這樣每一個文件大概是200k左右。若是其中的有的文件超過了1M大小，還能夠按照相似的方法繼續往下分，直到分解獲得的小文件的大小都不超過1M。

第二步hash統計對每一個小文件，統計每一個文件中出現的詞以及相應的頻率（能夠採用trie樹/hash_map等），並取出出現頻率最大的100個詞（能夠用含100個結點的最小堆），並把100個詞及相應的頻率存入文件，這樣又獲得了5000個文件。
第三步堆/歸併排序就是把這5000個文件進行歸併（也能夠採用堆排序）的過程了。（若是內存容許能夠將這5000個文件中的全部元素合併起來，利用堆得到top 100）

四、給定a、b兩個文件，各存放50億個url，每一個url各佔64字節，內存限制是4G，讓你找出a、b文件共同的url？

　　能夠估計每一個文件安的大小爲5G×64=320G，遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。

遍歷文件a，對每一個url求取hash(url)%1000，而後根據所取得的值將url分別存儲到1000個小文件（記爲a0,a1,...,a999）中。這樣每一個小文件的大約爲300M。

遍歷文件b，採起和a相同的方式將url分別存儲到1000小文件（記爲b0,b1,...,b999）。這樣處理後，全部可能相同的url都在對應的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不對應的小文件不可能有相同的url。而後咱們只要求出1000對小文件中相同的url便可。

求每對小文件中相同的url時，能夠把其中一個小文件的url存儲到hash_set中。而後遍歷另外一個小文件的每一個url，看其是否在剛纔構建的hash_set中，若是是，那麼就是共同的url，存到文件裏面就能夠了。

位圖存儲（bitmap）

1. 已知某個文件內包含一些電話號碼，每一個號碼爲8位數字，統計不一樣號碼的個數（共有都少個不一樣的號碼）。

8位最多99 999 999（0-99 999 999共1億個數），每一個數字對應一個Bit位，因此只須要99MBit==1.2MBytes，這樣，就用了小小的1.2M左右的內存表示了全部的8位數的電話）

2. 2.5億個整數（int）中找出不重複的整數的個數，內存足夠大。

將bit-map擴展一下，用2bit表示一個數便可，0表示未出現，1表示出現一次，2表示出現2次及以上。或者咱們不用2bit來進行表示，咱們用兩個bit-map便可模擬實現這個2bit-map。（每一個整數用兩位，存儲全部的整數須要2^32*2=1GB的內存）

3. 2.5億個整數中找出不重複的整數的個數，內存空間不足以容納這2.5億個整數。

整數個數爲2^32，咱們能夠將這2^32個數，劃分爲2^8個區域(好比用單個文件表明一個區域)，而後將數據分離到不一樣的區域，而後不一樣的區域在利用bitmap（佔用4MB，內存能夠存下）就能夠直接解決了。也就是說只要有足夠的磁盤空間，就能夠很方便的解決。

4. 5億個int找它們的中位數 (指將統計整體當中的各個變量值按大小順序排列起來，造成一個數列，處於變量數列中間位置的變量值就稱爲中位數)

首先咱們將int劃分爲2^16個區域（確定是按大小的），而後讀取數據統計落到各個區域裏的數的個數，以後咱們根據統計結果就能夠判斷中位數落到那個區域，同時知道這個區域中的第幾大數恰好是中位數。而後第二次掃描咱們只統計落在這個區域中的那些數就能夠了。

5. 騰訊面試題：給40億個不重複的unsigned int的整數，沒排過序的，而後再給一個數，如何快速判斷這個數是否在那40億個數當中？

方案1：申請512M的內存（2^32/8=512MB），一個bit位表明一個unsigned int值。讀入40億個數，設置相應的bit位，讀入要查詢的數，查看相應bit位是否爲1，爲1表示存在，爲0表示不存在。

方案2：由於2^32爲40億多，因此給定一個數可能在，也可能不在其中；這裏咱們把40億個數中的每個用32位的二進制來表示假設這40億個數開始放在一個文件中。

而後將這40億個數分紅兩類: 1. 最高位爲0 2. 最高位爲1

並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=20億，而另外一個>=20億（這至關於折半了）；與要查找的數的最高位比較並接着進入相應的文件再查找

再而後把這個文件爲又分紅兩類: 1.次最高位爲0 2.次最高位爲1

並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=10億，而另外一個>=10億（這至關於折半了）；與要查找的數的次最高位比較並接着進入相應的文件再查找。 ....... 以此類推，就能夠找到了,並且時間複雜度爲O(logn)。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

面試筆試問題：大數據量，海量數據 處理方法總結

面試筆試問題：大數據量，海量數據處理方法總結