海量數據處理的 Top K 相關問題

Top-k的最小堆解決方法

問題描述:有N(N>>10000)個整數,求出其中的前K個最大的數。(稱做Top k或者Top 10)html

問題分析:因爲(1)輸入的大量數據;(2)只要前K個,對整個輸入數據的保存和排序是至關的不可取的。python

能夠利用數據結構的最小堆來處理該問題。mysql

最小堆如圖所示,對於每一個非葉子節點的數值,必定不大於孩子節點的數值。這樣可用含有K個節點的最小堆來保存K個目前的最大值(固然根節點是其中的最小數值)。面試

每次有數據輸入的時候能夠先與根節點比較。若不大於根節點,則捨棄;不然用新數值替換根節點數值。並進行最小堆的調整。算法

 

 

 

 TOP K的python代碼實現sql

def heap_sort(ary, k):
    # 構建小頂堆
    def siftdown(ary, begin, end):
        i,j = begin, begin*2+1
        while j < end:
            if j+1 < end and ary[j+1] < ary[j]:  # 查看左右子樹的最小節點
                j += 1
            if ary[i] < ary[j]:  # 若是不須要交換了,則中止
                break
            ary[i],ary[j] = ary[j],ary[i]  # 交換父和子
            i,j = j,j*2+1

    # 構建最小堆
    end = len(ary)
    for i in range(end//2-1, -1, -1):
        siftdown(ary,i, end)
    print('小頂堆',ary)


    # 提取k個元素。每提取一個元素,構建一遍最小堆
    li = []
    for i in range(k):
        if len(ary) > i:
            li.append(ary[0])  # 取出最小的
            ary[end - 1 - i],ary[0] = ary[0],ary[end-1-i]  #最後一個與第一個交換。這裏只是假設這麼一步。
            siftdown(ary, 0, end-1-i)  # 從新建堆,不考慮最後一個
        else:
            break
    return li



if __name__ == '__main__':
    a = [4,5,1,6,2,4,7,8,7,3,8]
    k = 5
    print(heap_sort(a,k))

處理海量數據問題之六把密匙

密匙1、分而治之/Hash映射 + Hash_map統計 + 堆/快速/歸併排序

一、海量日誌數據,提取出某日訪問百度次數最多的那個IP。

既然是海量數據處理,那麼可想而知,給咱們的數據那就必定是海量的。針對這個數據的海量,咱們如何着手呢?對的,無非就是分而治之/hash映射 + hash統計 + 堆/快速/歸併排序,說白了,就是先映射,然後統計,最後排序:數據庫

  • 分而治之/hash映射:針對數據太大,內存受限,只能是:把大文件化成(取模映射)小文件,即16字方針:大而化小,各個擊破,縮小規模,逐個解決
  • hash_map統計:當大文件轉化了小文件,那麼咱們即可以採用常規的hash_map(ip,value)來進行頻率統計。
  • 堆/快速排序:統計完了以後,便進行排序(可採起堆排序),獲得次數最多的IP。

具體而論,則是: 「首先是這一天,而且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。一樣能夠採用映射的方法,好比%1000,把整個大文件映射爲1000個小文件,再找出每一個小文中出現頻率最大的IP(能夠採用hash_map對那1000個文件中的全部IP進行頻率統計,而後依次找出各個文件中頻率最大的那個IP)及相應的頻率。而後再在這1000個最大的IP中,找出那個頻率最大的IP,即爲所求。」–十道海量數據處理面試題與十個方法大總結。數組

關於本題,還有幾個問題,以下:數據結構

  • 一、Hash取模是一種等價映射,不會存在同一個元素分散到不一樣小文件中的狀況,即這裏採用的是mod1000算法,那麼相同的IP在hash取模後,只可能落在同一個文件中,不可能被分散的。由於若是兩個IP相等,那麼通過Hash(IP)以後的哈希值是相同的,將此哈希值取模(如模1000),一定仍然相等。架構

  • 二、那到底什麼是hash映射呢?簡單來講,就是爲了便於計算機在有限的內存中處理big數據,從而經過一種映射散列的方式讓數據均勻分佈在對應的內存位置(如大數據經過取餘的方式映射成小樹存放在內存中,或大文件映射成多個小文件),而這個映射散列方式即是咱們一般所說的hash函數,設計的好的hash函數能讓數據均勻分佈而減小衝突。儘管數據映射到了另一些不一樣的位置,但數據仍是原來的數據,只是代替和表示這些原始數據的形式發生了變化而已。

二、尋找熱門查詢,300萬個查詢字符串中統計最熱門的10個查詢

原題:搜索引擎會經過日誌文件把用戶每次檢索使用的全部檢索串都記錄下來,每一個查詢串的長度爲1-255字節。假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但若是除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。

解答:由上面第1題,咱們知道,數據大則劃爲小的,如如一億個Ip求Top 10,可先%1000將ip分到1000個小文件中去,並保證一種ip只出如今一個文件中,再對每一個小文件中的ip進行hashmap計數統計並按數量排序,最後歸併或者最小堆依次處理每一個小文件的top10以獲得最後的結。

但若是數據規模比較小,能一次性裝入內存呢?好比這第2題,雖然有一千萬個Query,可是因爲重複度比較高,所以事實上只有300萬的Query,每一個Query255Byte,所以咱們能夠考慮把他們都放進內存中去(300萬個字符串假設沒有重複,都是最大長度,那麼最多佔用內存3M*1K/4=0.75G。因此能夠將全部字符串都存放在內存中進行處理),而如今只是須要一個合適的數據結構,在這裏,HashTable絕對是咱們優先的選擇。

因此咱們放棄分而治之/hash映射的步驟,直接上hash統計,而後排序。So,針對此類典型的TOP K問題,採起的對策每每是:hashmap + 堆。以下所示:

  • hash_map統計:先對這批海量數據預處理。具體方法是:維護一個Key爲Query字串,Value爲該Query出現次數的HashTable,即hash_map(Query,Value),每次讀取一個Query,若是該字串不在Table中,那麼加入該字串,而且將Value值設爲1;若是該字串在Table中,那麼將該字串的計數加一便可。最終咱們在O(N)的時間複雜度內用Hash表完成了統計;
  • 堆排序:第二步、藉助堆這個數據結構,找出Top K,時間複雜度爲N‘logK。即藉助堆結構,咱們能夠在log量級的時間內查找和調整/移動。所以,維護一個K(該題目中是10)大小的小根堆,而後遍歷300萬的Query,分別和根元素進行對比。因此,咱們最終的時間複雜度是:O(N) + N’ * O(logK),(N爲1000萬,N’爲300萬)。

三、有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。

由上面那兩個例題,分而治之 + hash統計 + 堆/快速排序這個套路,咱們已經開始有了屢試不爽的感受。下面,再拿幾道再多多驗證下。請看此第3題:又是文件很大,又是內存受限,咋辦?還能怎麼辦呢?無非仍是:

  • 分而治之/hash映射:順序讀文件中,對於每一個詞x,取hash(x)%5000,而後按照該值存到5000個小文件(記爲x0,x1,…x4999)中。這樣每一個文件大概是200k左右。若是其中的有的文件超過了1M大小,還能夠按照相似的方法繼續往下分,直到分解獲得的小文件的大小都不超過1M。
  • hash_map統計:對每一個小文件,採用trie樹/hash_map等統計每一個文件中出現的詞以及相應的頻率。
  • 堆/歸併排序:取出出現頻率最大的100個詞(能夠用含100個結點的最小堆)後,再把100個詞及相應的頻率存入文件,這樣又獲得了5000個文件。最後就是把這5000個文件進行歸併(相似於歸併排序)的過程了。

四、海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。

若是每一個數據元素只出現一次,並且只出如今某一臺機器中,那麼能夠採起如下步驟統計出現次數TOP10的數據元素: 
- 堆排序:在每臺電腦上求出TOP10,能夠採用包含10個元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆,好比求TOP10大,咱們首先取前10個元素調整成最小堆,若是發現,而後掃描後面的數據,並與堆頂元素比較,若是比堆頂元素大,那麼用該元素替換堆頂,而後再調整爲最小堆。最後堆中的元素就是TOP10大)。 
- 求出每臺電腦上的TOP10後,而後把這100臺電腦上的TOP10組合起來,共1000個數據,再利用上面相似的方法求出TOP10就能夠了。

但若是同一個元素重複出如今不一樣的電腦中呢?你能夠有兩種方法: 
- 遍歷一遍全部數據,從新hash取摸,如此使得同一個元素只出如今單獨的一臺電腦中,而後採用上面所說的方法,統計每臺電腦中各個元素的出現次數找出TOP10,繼而組合100臺電腦上的TOP10,找出最終的TOP10。 
- 或者,暴力求解:直接統計統計每臺電腦中各個元素的出現次數,而後把同一個元素在不一樣機器中的出現次數相加,最終從全部數據中找出TOP10。

五、有10個文件,每一個文件1G,每一個文件的每一行存放的都是用戶的query,每一個文件的query均可能重複。要求你按照query的頻度排序。

方案1:直接上:

  • hash映射:順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記爲a0,a1,..a9)中。這樣新生成的文件每一個的大小大約也1G(假設hash函數是隨機的)。
  • hash_map統計:找一臺內存在2G左右的機器,依次對用hash_map(query, query_count)來統計每一個query出現的次數。注:hash_map(query,query_count)是用來統計每一個query的出現次數,不是存儲他們的值,出現一次,則count+1。
  • 堆/快速/歸併排序:利用快速/堆/歸併排序按照出現次數進行排序,將排序好的query和對應的query_cout輸出到文件中,這樣獲得了10個排好序的文件。最後,對這10個文件進行歸併排序(內排序與外排序相結合)。

    除此以外,此題還有如下兩個方法:

方案2:通常query的總量是有限的,只是重複的次數比較多而已,可能對於全部的query,一次性就能夠加入到內存了。這樣,咱們就能夠採用trie樹/hash_map等直接來統計每一個query出現的次數,而後按出現次數作快速/堆/歸併排序就能夠了。

方案3:與方案1相似,但在作完hash,分紅多個文件後,能夠交給多個文件來處理,採用分佈式的架構來處理(好比MapReduce),最後再進行合併。

六、 給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?

能夠估計每一個文件安的大小爲5G×64=320G,遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。

  • 分而治之/hash映射:遍歷文件a,對每一個url求取hash(url)%1000,而後根據所取得的值將url分別存儲到1000個小文件(a0,a1,a2...a999a0,a1,a2...a999)中。這樣每一個小文件的大約爲300M。遍歷文件b,採起和a相同的方式將url分別存儲到1000小文件中(b0,b1,b2...b999b0,b1,b2...b999)。這樣處理後,全部可能相同的url都在對應的小文件(a0vsb0,a1vsb1,a2vsb2...a999vsb999a0vsb0,a1vsb1,a2vsb2...a999vsb999)中,不對應的小文件不可能有相同的url。而後咱們只要求出1000對小文件中相同的url便可。
  • hash_set統計:求每對小文件中相同的url時,能夠把其中一個小文件的url存儲到hash_set中。而後遍歷另外一個小文件的每一個url,看其是否在剛纔構建的hash_set中,若是是,那麼就是共同的url,存到文件裏面就能夠了。

OK,此第一種方法:分而治之/hash映射 + hash統計 + 堆/快速/歸併排序,再看最後4道題,以下:

七、怎麼在海量數據中找出重複次數最多的一個?

方案:先作hash,而後求模映射爲小文件,求出每一個小文件中重複次數最多的一個,並記錄重複次數。而後找出上一步求出的數據中重複次數最多的一個就是所求(具體參考前面的題)。

八、上千萬或上億數據(有重複),統計其中出現次數最多的前N個數據。

方案:上千萬或上億的數據,如今的機器的內存應該能存下。因此考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。而後利用堆取出前N個出現次數最多的數據。

九、一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞,請給出思想,給出時間複雜度分析。

方案1:若是文件比較大,沒法一次性讀入內存,能夠採用hash取模的方法,將大文件分解爲多個小文件,對於單個小文件利用hash_map統計出每一個小文件中10個最常出現的詞,而後再進行歸併處理,找出最終的10個最常出現的詞。

方案2:經過hash取模將大文件分解爲多個小文件後,除了能夠用hash_map統計出每一個小文件中10個最常出現的詞,也能夠用trie樹統計每一個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度),最終一樣找出出現最頻繁的前10個詞(可用堆來實現),時間複雜度是O(n*lg10)。

10. 1000萬字符串,其中有些是重複的,須要把重複的所有去掉,保留沒有重複的字符串。請怎麼設計和實現?

方案1:這題用trie樹比較合適,hash_map也行。 
方案2:from xjbzju:,1000w的數據規模插入操做徹底不現實,之前試過在stl下100w元素插入set中已經慢得不能忍受,以爲基於hash的實現不會比紅黑樹好太多,使用vector+sort+unique都要可行許多,建議仍是先hash成小文件分開處理再綜合。

11. 一個文本文件,找出前10個常常出現的詞,但此次文件比較長,說是上億行或十億行,總之沒法一次讀入內存,問最優解。

方案1:首先根據用hash並求模,將文件分解爲多個小文件,對於單個文件利用上題的方法求出每一個文件件中10個最常出現的詞。而後再進行歸併處理,找出最終的10個最常出現的詞。

12. 100w個數中找出最大的100個數。

方案1:採用局部淘汰法。選取前100個元素,並排序,記爲序列L。而後一次掃描剩餘的元素x,與排好序的100個元素中最小的元素比,若是比這個最小的要大,那麼把這個最小的元素刪除,並把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了全部的元素。複雜度爲O(100w*100)。

方案2:採用快速排序的思想,每次分割以後只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,採用傳統排序算法排序,取前100個。複雜度爲O(100w*100)。

方案3:在前面的題中,咱們已經提到了,用一個含100個元素的最小堆完成。複雜度爲O(100w*lg100)。

接下來,我們來看第二種方法,雙層捅劃分。

密匙2、多層劃分

多層劃分—其實本質上仍是分而治之的思想,重在「分」的技巧上! 
  適用範圍:第k大,中位數,不重複或重複的數字 
  基本原理及要點:由於元素範圍很大,不能利用直接尋址表,因此經過屢次劃分,逐步肯定範圍,而後最後在一個能夠接受的範圍內進行。

問題實例:

1三、2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。

有點像鴿巢原理,整數個數爲2^32,也就是,咱們能夠將這2^32個數,劃分爲2^8個區域(好比用單個文件表明一個區域),而後將數據分離到不一樣的區域,而後不一樣的區域在利用bitmap就能夠直接解決了。也就是說只要有足夠的磁盤空間,就能夠很方便的解決。

1四、5億個int找它們的中位數。

思路一:這個例子比上面那個更明顯。首先咱們將int劃分爲2^16個區域,而後讀取數據統計落到各個區域裏的數的個數,以後咱們根據統計結果就能夠判斷中位數落到那個區域,同時知道這個區域中的第幾大數恰好是中位數。而後第二次掃描咱們只統計落在這個區域中的那些數就能夠了。 
實際上,若是不是int是int64,咱們能夠通過3次這樣的劃分便可下降到能夠接受的程度。便可以先將int64分紅2^24個區域,而後肯定區域的第幾大數,在將該區域分紅2^20個子區域,而後肯定是子區域的第幾大數,而後子區域裏的數的個數只有2^20,就能夠直接利用direct addr table進行統計了。

思路二@綠色夾克衫:一樣須要作兩遍統計,若是數據存在硬盤上,就須要讀取2次。 
方法同基數排序有些像,開一個大小爲65536的Int數組,第一遍讀取,統計Int32的高16位的狀況,也就是0-65535,都算做0,65536 - 131071都算做1。就至關於用該數除以65536。Int32 除以 65536的結果不會超過65536種狀況,所以開一個長度爲65536的數組計數就能夠。每讀取一個數,數組中對應的計數+1,考慮有負數的狀況,須要將結果加32768後,記錄在相應的數組內。 
第一遍統計以後,遍歷數組,逐個累加統計,看中位數處於哪一個區間,好比處於區間k,那麼0- k-1的區間裏數字的數量sum應該

密匙三:Bloom filter/Bitmap

Bloom filter 
關於什麼是Bloom filter,請參看blog內此文:

海量數據處理之Bloom Filter詳解 
  適用範圍:能夠用來實現數據字典,進行數據的判重,或者集合求交集 
  基本原理及要點: 
  對於原理來講很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時若是發現全部hash函數對應位都是1說明存在,很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,由於該關鍵字對應的位會牽動到其餘的關鍵字。因此一個簡單的改進就是 counting Bloom filter,用一個counter數組代替位數組,就能夠支持刪除了。 
  還有一個比較重要的問題,如何根據輸入元素個數n,肯定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的狀況下,m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,由於還要保證bit數組裏至少一半爲0,則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2爲底的對數)。 
  舉個例子咱們假設錯誤率爲0.01,則此時m應大概是n的13倍。這樣k大概是8個。 
  注意這裏m與n的單位不一樣,m是bit爲單位,而n則是以元素個數爲單位(準確的說是不一樣元素的個數)。一般單個元素的長度都是有不少bit的。因此使用bloom filter內存上一般都是節省的。

  擴展: 
  Bloom filter將集合中的元素映射到位數組中,用k(k爲哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數組中的每一位擴展爲一個counter,從而支持了元素的刪除操做。Spectral Bloom Filter(SBF)將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。

能夠看下上文中的第6題:

六、給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。若是是三個乃至n個文件呢?

  根據這個問題咱們來計算下內存的佔用,4G=2^32大概是40億*8大概是340億,n=50億,若是按出錯率0.01算須要的大概是650億個bit。如今可用的是340億,相差並很少,這樣可能會使出錯率上升些。另外若是這些urlip是一一對應的,就能夠轉換成ip,則大大簡單了。

同時,上文的第5題:給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?若是容許有必定的錯誤率,可使用Bloom filter,4G內存大概能夠表示340億bit。將其中一個文件中的url使用Bloom filter映射爲這340億bit,而後挨個讀取另一個文件的url,檢查是否與Bloom filter,若是是,那麼該url應該是共同的url(注意會有必定的錯誤率)。

Bitmap 
關於什麼是Bitmap,請看blog內此文第二部分:http://blog.csdn.net/v_july_v/article/details/6685962。 
下面關於Bitmap的應用,能夠看下上文中的第13題,以及另一道新題:

1三、在2.5億個整數中找出不重複的整數,注,內存不足以容納這2.5億個整數。

方案1:採用2-Bitmap(每一個數分配2bit,00表示不存在,01表示出現一次,10表示屢次,11無心義)進行,共需內存2^32 * 2 bit=1 GB內存,還能夠接受。而後掃描這2.5億個整數,查看Bitmap中相對應位,若是是00變01,01變10,10保持不變。所描完過後,查看bitmap,把對應位是01的整數輸出便可。

方案2:也可採用與第1題相似的方法,進行劃分小文件的方法。而後在小文件中找出不重複的整數,並排序。而後再進行歸併,注意去除重複的元素。

1五、給40億個不重複的unsigned int的整數,沒排過序的,而後再給一個數,如何快速判斷這個數是否在那40億個數當中? 
方案1:frome oo,用位圖/Bitmap的方法,申請512M的內存,一個bit位表明一個unsigned int值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否爲1,爲1表示存在,爲0表示不存在。

密匙4、Trie樹/數據庫/倒排索引

Trie樹

  適用範圍:數據量大,重複多,可是數據種類小能夠放入內存 
  基本原理及要點:實現方式,節點孩子的表示方式 
  擴展:壓縮實現。 
  問題實例:

上面的第2題:尋找熱門查詢:查詢串的重複度比較高,雖然總數是1千萬,但若是除去重複後,不超過3百萬個,每一個不超過255字節。 
上面的第5題:有10個文件,每一個文件1G,每一個文件的每一行都存放的是用戶的query,每一個文件的query均可能重複。要你按照query的頻度排序。 
1000萬字符串,其中有些是相同的(重複),須要把重複的所有去掉,保留沒有重複的字符串。請問怎麼設計和實現? 
上面的第8題:一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞。其解決方法是:用trie樹統計每一個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度),而後是找出出現最頻繁的前10個詞。 
更多有關Trie樹的介紹,請參見此文:從Trie樹(字典樹)談到後綴樹。

數據庫索引 
  適用範圍:大數據量的增刪改查 
  基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。

關於數據庫索引及其優化,更多可參見此文:http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass-data-topic-7-index-and-optimize.html; 
關於MySQL索引背後的數據結構及算法原理,這裏還有一篇很好的文章:http://blog.codinglabs.org/articles/theory-of-mysql-index.html; 
關於B 樹、B+ 樹、B* 樹及R 樹,本blog內有篇絕佳文章:http://blog.csdn.net/v_JULY_v/article/details/6530142。 
倒排索引(Inverted index) 
  適用範圍:搜索引擎,關鍵字查詢 
  基本原理及要點:爲什麼叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。 
以英文爲例,下面是要被索引的文本: 
T0 = 「it is what it is」 
T1 = 「what is it」 
T2 = 「it is a banana」 
咱們就能獲得下面的反向文件索引: 
「a」: {2} 
「banana」: {2} 
「is」: {0, 1, 2} 
「it」: {0, 1, 2} 
「what」: {0, 1} 
檢索的條件」what」,」is」和」it」將對應集合的交集。

  正向索引開發出來用來存儲每一個文檔的單詞的列表。正向索引的查詢每每知足每一個文檔有序頻繁的全文查詢和每一個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔佔據了中心的位置,每一個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關係。 
  擴展: 
  問題實例:文檔檢索系統,查詢那些文件包含了某單詞,好比常見的學術論文的關鍵字搜索。

關於倒排索引的應用,更多請參見:

第二十3、四章:楊氏矩陣查找,倒排索引關鍵詞Hash不重複編碼實踐, 
第二十六章:基於給定的文檔生成倒排索引的編碼與實踐。

密匙5、外排序

適用範圍:大數據的排序,去重 
基本原理及要點:外排序的歸併方法,置換選擇敗者樹原理,最優歸併樹 
問題實例: 
  1).有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。 
  這個數據具備很明顯的特色,詞的大小爲16個字節,可是內存只有1M作hash明顯不夠,因此能夠用來排序。內存能夠當輸入緩衝區使用。

關於多路歸併算法及外排序的具體應用場景,請參見blog內此文:

第十章、如何給10^7個數據量的磁盤文件排序

密匙6、分佈式處理之Mapreduce

MapReduce是一種計算模型,簡單的說就是將大批量的工做(數據)分解(MAP)執行,而後再將結果合併成最終結果(REDUCE)。這樣作的好處是能夠在任務被分解後,能夠經過大量機器進行並行計算,減小整個操做的時間。但若是你要我再通俗點介紹,那麼,說白了,Mapreduce的原理就是一個歸併排序。

適用範圍:數據量大,可是數據種類小能夠放入內存 
基本原理及要點:將數據交給不一樣的機器去處理,數據劃分,結果歸約。 
問題實例:

The canonical example application of MapReduce is a process to count the appearances of each different word in a set of documents: 
海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。 
一共有N個機器,每一個機器上有N個數。每一個機器最多存O(N)個數並對它們操做。如何找到N^2個數的中數(median)? 
更多具體闡述請參見blog內:

從Hadhoop框架與MapReduce模式中談海量數據處理,及MapReduce技術的初步瞭解與學習。 

其它模式/方法論,結合操做系統知識 
至此,六種處理海量數據問題的模式/方法已經闡述完畢。據觀察,這方面的面試題無外乎以上一種或其變形,然題目爲什麼取爲是:秒殺99%的海量數據處理面試題,而不是100%呢。OK,給讀者看最後一道題,以下: 

很是大的文件,裝不進內存。每行一個int類型數據,如今要你隨機取100個數。 

咱們發現上述這道題,不管是以上任何一種模式/方法都很差作,那有什麼好的別的方法呢?咱們能夠看看:操做系統內存分頁系統設計(說白了,就是映射+建索引)。 
Windows 2000使用基於分頁機制的虛擬內存。每一個進程有4GB的虛擬地址空間。基於分頁機制,這4GB地址空間的一些部分被映射了物理內存,一些部分映射硬盤上的交換文 件,一些部分什麼也沒有映射。程序中使用的都是4GB地址空間中的虛擬地址。而訪問物理內存,須要使用物理地址。 關於什麼是物理地址和虛擬地址,請看: 
物理地址 (physical address): 放在尋址總線上的地址。放在尋址總線上,若是是讀,電路根據這個地址每位的值就將相應地址的物理內存中的數據放到數據總線中傳輸。若是是寫,電路根據這個 地址每位的值就將相應地址的物理內存中放入數據總線上的內容。物理內存是以字節(8位)爲單位編址的。 
虛擬地址 (virtual address): 4G虛擬地址空間中的地址,程序中使用的都是虛擬地址。 使用了分頁機制以後,4G的地址空間被分紅了固定大小的頁,每一頁或者被映射到物理內存,或者被映射到硬盤上的交換文件中,或者沒有映射任何東西。對於一 般程序來講,4G的地址空間,只有一小部分映射了物理內存,大片大片的部分是沒有映射任何東西。物理內存也被分頁,來映射地址空間。對於32bit的 Win2k,頁的大小是4K字節。CPU用來把虛擬地址轉換成物理地址的信息存放在叫作頁目錄和頁表的結構裏。 
物理內存分頁,一個物理頁的大小爲4K字節,第0個物理頁從物理地址 0x00000000 處開始。因爲頁的大小爲4KB,就是0x1000字節,因此第1頁從物理地址 0x00001000 處開始。第2頁從物理地址 0x00002000 處開始。能夠看到因爲頁的大小是4KB,因此只須要32bit的地址中高20bit來尋址物理頁。 
返回上面咱們的題目:很是大的文件,裝不進內存。每行一個int類型數據,如今要你隨機取100個數。針對此題,咱們能夠借鑑上述操做系統中內存分頁的設計方法,作出以下解決方案: 
操做系統中的方法,先生成4G的地址表,在把這個表劃分爲小的4M的小文件作個索引,二級索引。30位前十位表示第幾個4M文件,後20位表示在這個4M文件的第幾個,等等,基於key value來設計存儲,用key來建索引。

原文地址:https://blog.csdn.net/bryan__/article/details/45079557

相關文章
相關標籤/搜索