大數據處理一

時間 2019-11-12

原文原文鏈接

hadoop大數據處理一

海量日誌數據，提取出某日訪問百度次數最多的那個IP。

首先是這一天，而且是訪問百度的日誌中的IP取出來，逐個寫入到一個大文件中。注意到IP是32位的，最多有個2^32個IP。一樣能夠採用映射的方法，好比模1000，把整個大文件映射爲1000個小文件，再找出每一個小文中出現頻率最大的IP（能夠採用hash_map進行頻率統計，而後再找出頻率最大的幾個）及相應的頻率。而後再在這1000個最大的IP中，找出那個頻率最大的IP，即爲所求。
或者以下闡述（雪域之鷹）：
算法思想：分而治之+Hash
1.IP地址最多有2^32=4G種取值狀況，因此不能徹底加載到內存中處理；
2.能夠考慮採用「分而治之」的思想，按照IP地址的Hash(IP)%1024值，把海量IP日誌分別存儲到1024個小文件中。這樣，每一個小文件最多包含4MB個IP地址；
3.對於每個小文件，能夠構建一個IP爲key，出現次數爲value的Hash map，同時記錄當前出現次數最多的那個IP地址；
4.能夠獲得1024個小文件中的出現次數最多的IP，再依據常規的排序算法獲得整體上出現次數最多的IP；面試

搜索引擎會經過日誌文件把用戶每次檢索使用的全部檢索串都記錄下來，每一個查詢串的長度爲1-255字節。

假設目前有一千萬個記錄（這些查詢串的重複度比較高，雖然總數是1千萬，但若是除去重複後，不超過3百萬個。一個查詢串的重複度越高，說明查詢它的用戶越多，也就是越熱門。），請你統計最熱門的10個查詢串，要求使用的內存不能超過1G。
典型的Top K算法，仍是在這篇文章裏頭有所闡述，詳情請參見：11、從頭至尾完全解析Hash表算法。
文中，給出的最終算法是：
第一步、先對這批海量數據預處理，在O（N）的時間內用Hash表完成統計（以前寫成了排序，特此訂正。July、2011.04.27）；
第二步、藉助堆這個數據結構，找出Top K，時間複雜度爲N‘logK。
即，藉助堆結構，咱們能夠在log量級的時間內查找和調整/移動。所以，維護一個K(該題目中是10)大小的小根堆，而後遍歷300萬的Query，分別和根元素進行對比因此，咱們最終的時間複雜度是：O（N） + N’*O（logK），（N爲1000萬，N’爲300萬）。ok，更多，詳情，請參考原文。
或者：採用trie樹，關鍵字域存該查詢串出現的次數，沒有出現爲0。最後用10個元素的最小推來對出現頻率進行排序。算法

三、有一個1G大小的一個文件，裏面每一行是一個詞，詞的大小不超過16字節，內存限制大小是1M。返回頻數最高的100個詞。

方案：順序讀文件中，對於每一個詞x，取hash(x)%5000，而後按照該值存到5000個小文件（記爲x0,x1,…x4999）中。這樣每一個文件大概是200k左右。
若是其中的有的文件超過了1M大小，還能夠按照相似的方法繼續往下分，直到分解獲得的小文件的大小都不超過1M。
對每一個小文件，統計每一個文件中出現的詞以及相應的頻率（能夠採用trie樹/hash_map等），並取出出現頻率最大的100個詞（能夠用含100個結點的最小堆），並把100個詞及相應的頻率存入文件，這樣又獲得了5000個文件。下一步就是把這5000個文件進行歸併（相似與歸併排序）的過程了。編程

有10個文件，每一個文件1G，每一個文件的每一行存放的都是用戶的query，每一個文件的query均可能重複。要求你按照query的頻度排序。

仍是典型的TOP K算法，解決方案以下：
方案1：
順序讀取10個文件，按照hash(query)%10的結果將query寫入到另外10個文件（記爲）中。這樣新生成的文件每一個的大小大約也1G（假設hash函數是隨機的）。
找一臺內存在2G左右的機器，依次對用hash_map(query, query_count)來統計每一個query出現的次數。利用快速/堆/歸併排序按照出現次數進行排序。將排序好的query和對應的 query_cout輸出到文件中。這樣獲得了10個排好序的文件（記爲）。
對這10個文件進行歸併排序（內排序與外排序相結合）。
方案2：
通常query的總量是有限的，只是重複的次數比較多而已，可能對於全部的query，一次性就能夠加入到內存了。這樣，咱們就能夠採用trie樹/hash_map等直接來統計每一個query出現的次數，而後按出現次數作快速/堆/歸併排序就能夠了。
方案3：
與方案1相似，但在作完hash，分紅多個文件後，能夠交給多個文件來處理，採用分佈數據結構

給定a、b兩個文件，各存放50億個url，每一個url各佔64字節，內存限制是4G，讓你找出a、b文件共同的url？

方案1：能夠估計每一個文件安的大小爲5G×64=320G，遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。
遍歷文件a，對每一個url求取hash(url)%1000，而後根據所取得的值將url分別存儲到1000個小文件（記爲a0,a1,…,a999）中。這樣每一個小文件的大約爲300M。
遍歷文件b，採起和a相同的方式將url分別存儲到1000小文件（記爲b0,b1,…,b999）。這樣處理後，全部可能相同的url都在對應的小文件（a0vsb0,a1vsb1,…,a999vsb999）中，不對應的小文件不可能有相同的url。而後咱們只要求出1000對小文件中相同的 url便可。
求每對小文件中相同的url時，能夠把其中一個小文件的url存儲到hash_set中。而後遍歷另外一個小文件的每一個url，看其是否在剛纔構建的hash_set中，若是是，那麼就是共同的url，存到文件裏面就能夠了。
方案2：若是容許有必定的錯誤率，可使用Bloom filter，4G內存大概能夠表示340億bit。將其中一個文件中的url使用Bloom filter映射爲這340億bit，而後挨個讀取另一個文件的url，檢查是否與Bloom filter，若是是，那麼該##url在2.5億個整數中找出不重複的整數，注，內存不足以容納這2.5億個整數應該是共同的url（注意會有必定的錯誤率）。
方案1：採用2-Bitmap（每一個數分配2bit，00表示不存在，01表示出現一次，10表示屢次，11無心義）進行，共需內存2^32 * 2 bit=1 GB內存，還能夠接受。而後掃描這2.5億個整數，查看Bitmap中相對應位，若是是00變01，01變10，10保持不變。所描完過後，查看 bitmap，把對應位是01的整數輸出便可。
方案2：也可採用與第1題相似的方法，進行劃分小文件的方法。而後在小文件中找出不重複的整數，並排序。而後再進行歸併，注意去除重複的元素。函數

騰訊面試題：給40億個不重複的unsigned int的整數，沒排過序的，而後再給一個數，如何快速判斷這個數是否在那40億個數當中？

與上第6題相似，個人第一反應時快速排序+二分查找。如下是其它更好的方法：
方案1：oo，申請512M的內存，一個bit位表明一個unsigned int值。讀入40億個數，設置相應的bit位，讀入要查詢的數，查看相應bit位是否爲1，爲1表示存在，爲0表示不存在。
方案2：這個問題在《編程珠璣》裏有很好的描述，你們能夠參考下面的思路，探討一下：
又由於2^32爲40億多，因此給定一個數可能在，也可能不在其中；
這裏咱們把40億個數中的每個用32位的二進制來表示
假設這40億個數開始放在一個文件中。
而後將這40億個數分紅兩類:
1.最高位爲0
2.最高位爲1
並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=20億，而另外一個>=20億（這至關於折半了）；
與要查找的數的最高位比較並接着進入相應的文件再查找
再而後把這個文件爲又分紅兩類:
1.次最高位爲0
2.次最高位爲1
並將這兩類分別寫入到兩個文件中，其中一個文件中數的個數<=10億，而另外一個>=10億（這至關於折半了）；
與要查找的數的次最高位比較並接着進入相應的文件再查找。
…….
以此類推，就能夠找到了,並且時間複雜度爲O(logn)，方案2完。oop