海量數據處理 - 10億個數中找出最大的10000個數(top K問題)

前兩天面試3面學長問個人這個問題(想說TEG的3個面試學長都是好和善,但願能完成最後一面,各方面緣由形成我無比想去鵝場的心已經按捺不住了),這個問題仍是創建最小堆比較好一些。面試

    先拿10000個數建堆,而後一次添加剩餘元素,若是大於堆頂的數(10000中最小的),將這個數替換堆頂,並調整結構使之仍然是一個最小堆,這樣,遍歷完後,堆中的10000個數就是所需的最大的10000個。建堆時間複雜度是O(mlogm),算法的時間複雜度爲O(nmlogm)(n爲10億,m爲10000)。

  優化的方法:能夠把全部10億個數據分組存放,好比分別放在1000個文件中。這樣處理就能夠分別在每一個文件的10^6個數據中找出最大的10000個數,合併到一塊兒在再找出最終的結果。

  以上就是面試時簡單提到的內容,下面整理一下這方面的問題:

top K問題 在大規模數據處理中,常常會遇到的一類問題:在海量數據中找出出現頻率最好的前k個數,或者從海量數據中找出最大的前k個數,這類問題一般被稱爲top K問題。例如,在搜索引擎中,統計搜索最熱門的10個查詢詞;在歌曲庫中統計下載最高的前10首歌等。 針對top K類問題,一般比較好的方案是分治+Trie樹/hash+小頂堆(就是上面提到的最小堆),即先將數據集按照Hash方法分解成多個小數據集,而後使用Trie樹活着Hash統計每一個小數據集中的query詞頻,以後用小頂堆求出每一個數據集中出現頻率最高的前K個數,最後在全部top K中求出最終的top K。算法

eg:有1億個浮點數,若是找出期中最大的10000個? 最容易想到的方法是將數據所有排序,而後在排序後的集合中進行查找,最快的排序算法的時間複雜度通常爲O(nlogn),如快速排序。可是在32位的機器上,每一個float類型佔4個字節,1億個浮點數就要佔用400MB的存儲空間,對於一些可用內存小於400M的計算機而言,很顯然是不能一次將所有數據讀入內存進行排序的。其實即便內存可以知足要求(我機器內存都是8GB),該方法也並不高效,由於題目的目的是尋找出最大的10000個數便可,而排序倒是將全部的元素都排序了,作了不少的無用功數組

第二種方法爲局部淘汰法,該方法與排序方法相似,用一個容器保存前10000個數,而後將剩餘的全部數字——與容器內的最小數字相比,若是全部後續的元素都比容器內的10000個數還,那麼容器內這個10000個數就是最大10000個數。若是某一後續元素比容器內最小數字,則刪掉容器內最小元素,並將該元素插入容器,最後遍歷完這1億個數,獲得的結果容器中保存的數即爲最終結果了。此時的時間複雜度爲O(n+m^2),其中m爲容器的大小,即10000。多線程

第三種方法是分治法,將1億個數據分紅100份,每份100萬個數據,找到每份數據中最大的10000個,最後在剩下的10010000個數據裏面找出最大的10000個。若是100萬數據選擇足夠理想,那麼能夠過濾掉1億數據裏面99%的數據。100萬個數據裏面查找最大的10000個數據的方法以下:用快速排序的方法,將數據分爲2堆,若是大的那堆個數N大於10000個,繼續對大堆快速排序一次分紅2堆,若是大的那堆個數N大於10000個,繼續對大堆快速排序一次分紅2堆,若是大堆個數N小於10000個,就在小的那堆裏面快速排序一次,找第10000-n大的數字;遞歸以上過程,就能夠找到第1w大的數。參考上面的找出第1w大數字,就能夠相似的方法找到前10000大數字了。此種方法須要每次的內存空間爲10^64=4MB,一共須要101次這樣的比較。框架

第四種方法是Hash法。若是這1億個書裏面有不少重複的數,先經過Hash法,把這1億個數字去重複,這樣若是重複率很高的話,會減小很大的內存用量,從而縮小運算空間,而後經過分治法或最小堆法查找最大的10000個數。socket

第五種方法採用最小堆。首先讀入前10000個數來建立大小爲10000的最小堆,建堆的時間複雜度爲O(mlogm)(m爲數組的大小即爲10000),而後遍歷後續的數字,並於堆頂(最小)數字進行比較。若是比最小的數小,則繼續讀取後續數字;若是比堆頂數字大,則替換堆頂元素並從新調整堆爲最小堆。整個過程直至1億個數所有遍歷完爲止。而後按照中序遍歷的方式輸出當前堆中的全部10000個數字。該算法的時間複雜度爲O(nmlogm),空間複雜度是10000(常數)。函數

實際運行: 實際上,最優的解決方案應該是最符合實際設計需求的方案,在時間應用中,可能有足夠大的內存,那麼直接將數據扔到內存中一次性處理便可,也可能機器有多個核,這樣能夠採用多線程處理整個數據集。oop

   下面針對不容的應用場景,分析了適合相應應用場景的解決方案。

(1)單機+單核+足夠大內存 若是須要查找10億個查詢次(每一個佔8B)中出現頻率最高的10個,考慮到每一個查詢詞佔8B,則10億個查詢次所需的內存大約是10^9 * 8B=8GB內存。若是有這麼大內存,直接在內存中對查詢次進行排序,順序遍歷找出10個出現頻率最大的便可。這種方法簡單快速,使用。而後,也能夠先用HashMap求出每一個詞出現的頻率,而後求出頻率最大的10個詞。優化

(2)單機+多核+足夠大內存 這時能夠直接在內存總使用Hash方法將數據劃分紅n個partition每一個partition交給一個線程處理,線程的處理邏輯同(1)相似,最後一個線程將結果歸併網站

    該方法存在一個瓶頸會明顯影響效率,即數據傾斜。每一個線程的處理速度可能不一樣,快的線程須要等待慢的線程,最終的處理速度取決於慢的線程。而針對此問題,解決的方法是,將數據劃分紅c×n個partition(c>1),每一個線程處理完當前partition後主動取下一個partition繼續處理,知道全部數據處理完畢,最後由一個線程進行歸併。

(3)單機+單核+受限內存 這種狀況下,須要將原數據文件切割成一個一個小文件,如次啊用hash(x)%M,將原文件中的數據切割成M小文件,若是小文件仍大於內存大小,繼續採用Hash的方法對數據文件進行分割,知道每一個小文件小於內存大小,這樣每一個文件可放到內存中處理。採用(1)的方法依次處理每一個小文件。

(4)多機+受限內存 這種狀況,爲了合理利用多臺機器的資源,可將數據分發到多臺機器上,每臺機器採用(3)中的策略解決本地的數據。可採用hash+socket方法進行數據分發。

 

    從實際應用的角度考慮,(1)(2)(3)(4)方案並不可行,由於在大規模數據處理環境下,做業效率並非首要考慮的問題,算法的擴展性和容錯性纔是首要考慮的。算法應該具備良好的擴展性,以便數據量進一步加大(隨着業務的發展,數據量加大是必然的)時,在不修改算法框架的前提下,可達到近似的線性比;算法應該具備容錯性,即當前某個文件處理失敗後,能自動將其交給另一個線程繼續處理,而不是從頭開始處理。

  top K問題很適合採用MapReduce框架解決,用戶只需編寫一個Map函數和兩個Reduce 函數,而後提交到Hadoop(採用Mapchain和Reducechain)上便可解決該問題。具體而言,就是首先根據數據值或者把數據hash(MD5)後的值按照範圍劃分到不一樣的機器上,最好可讓數據劃分後一次讀入內存,這樣不一樣的機器負責處理不一樣的數值範圍,實際上就是Map。獲得結果後,各個機器只需拿出各自出現次數最多的前N個數據,而後彙總,選出全部的數據中出現次數最多的前N個數據,這實際上就是Reduce過程。對於Map函數,採用Hash算法,將Hash值相同的數據交給同一個Reduce task;對於第一個Reduce函數,採用HashMap統計出每一個詞出現的頻率,對於第二個Reduce 函數,統計全部Reduce task,輸出數據中的top K便可。

  直接將數據均分到不一樣的機器上進行處理是沒法獲得正確的結果的。由於一個數據可能被均分到不一樣的機器上,而另外一個則可能徹底彙集到一個機器上,同時還可能存在具備相同數目的數據。

 

如下是一些常常被說起的該類問題。 (1)有10000000個記錄,這些查詢串的重複度比較高,若是除去重複後,不超過3000000個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門。請統計最熱門的10個查詢串,要求使用的內存不能超過1GB。

(2)有10個文件,每一個文件1GB,每一個文件的每一行存放的都是用戶的query,每一個文件的query均可能重複。按照query的頻度排序。

(3)有一個1GB大小的文件,裏面的每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1MB。返回頻數最高的100個詞。

(4)提取某日訪問網站次數最多的那個IP。

(5)10億個整數找出重複次數最多的100個整數。

(6)搜索的輸入信息是一個字符串,統計300萬條輸入信息中最熱門的前10條,每次輸入的一個字符串爲不超過255B,內存使用只有1GB。

(7)有1000萬個身份證號以及他們對應的數據,身份證號可能重複,找出出現次數最多的身份證號。

 

重複問題 在海量數據中查找出重複出現的元素或者去除重複出現的元素也是常考的問題。針對此類問題,通常能夠經過位圖法實現。例如,已知某個文件內包含一些電話號碼,每一個號碼爲8位數字,統計不一樣號碼的個數。

本題最好的解決方法是經過使用位圖法來實現。8位整數能夠表示的最大十進制數值爲99999999。若是每一個數字對應於位圖中一個bit位,那麼存儲8位整數大約須要99MB。由於1B=8bit,因此99Mbit摺合成內存爲99/8=12.375MB的內存,便可以只用12.375MB的內存表示全部的8位數電話號碼的內容。

相關文章
相關標籤/搜索