BAT、FLAG(Facebook,LinkedIn,Amazon/Apple,Google)這類涉及到大數據的公司面試的時候都喜歡問關於海量數據處理的問題,本文將對海量處理問題進行總結。html
我買了July出的《編程之法》,對海量數據處理問題有總結。mysql
問題介紹:c++
所謂海量數據處理,無非就是基於海量數據上的存儲(內存限制)、處理(用什麼數據結構)、操做(數據結構用什麼算法)。何謂海量,就是數據量太大,因此致使要麼是沒法在較短期內迅速解決,要麼是數據太大,致使沒法一次性裝入內存。git
至於所謂的單機及集羣問題,通俗點來說,單機就是處理裝載數據的機器有限(只要考慮cpu,內存,硬盤的數據交互),而集羣,機器有多個,適合分佈式處理,並行計算(更多考慮節點和節點間的數據交互)。github
散列分治:面試
核心:分而治之/Hash映射 + Hash_map統計 + 堆/快速/歸併排序算法
說白了,就是先映射,然後統計,最後排序:sql
TOP IP數據庫
從海量日誌數據中提取出某日訪問www.baidu.com次數最多的那個IP編程
三、有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。
由上面那兩個例題,分而治之 + hash統計 + 堆/快速排序這個套路,咱們已經開始有了屢試不爽的感受。下面,再拿幾道再多多驗證下。請看此第3題:又是文件很大,又是內存受限,咋辦?還能怎麼辦呢?無非仍是:
四、海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。
若是每一個數據元素只出現一次,並且只出如今某一臺機器中,那麼能夠採起如下步驟統計出現次數TOP10的數據元素:
但若是同一個元素重複出如今不一樣的電腦中呢,以下例子所述:
這個時候,你能夠有兩種方法:
五、有10個文件,每一個文件1G,每一個文件的每一行存放的都是用戶的query,每一個文件的query均可能重複。要求你按照query的頻度排序。
方案1:直接上:
除此以外,此題還有如下兩個方法:
方案2:通常query的總量是有限的,只是重複的次數比較多而已,可能對於全部的query,一次性就能夠加入到內存了。這樣,咱們就能夠採用trie樹/hash_map等直接來統計每一個query出現的次數,而後按出現次數作快速/堆/歸併排序就能夠了。
方案3:與方案1相似,但在作完hash,分紅多個文件後,能夠交給多個文件來處理,採用分佈式的架構來處理(好比MapReduce),最後再進行合併。
六、 給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?
能夠估計每一個文件安的大小爲5G×64=320G,遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。
OK,此第一種方法: 分而治之/hash映射 + hash統計 + 堆/快速/歸併排序 ,再看最後4道題,以下:
七、怎麼在海量數據中找出重複次數最多的一個?
方案1:先作hash,而後求模映射爲小文件,求出每一個小文件中重複次數最多的一個,並記錄重複次數。而後找出上一步求出的數據中重複次數最多的一個就是所求(具體參考前面的題)。
八、上千萬或上億數據(有重複),統計其中出現次數最多的錢N個數據。
方案1:上千萬或上億的數據,如今的機器的內存應該能存下。因此考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。而後就是取出前N個出現次數最多的數據了,能夠用第2題提到的堆機制完成。
九、一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞,請給出思想,給出時間複雜度分析。
方案1:這題是考慮時間效率。用trie樹統計每一個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度)。而後是找出出現最頻繁的前10個詞,能夠用堆來實現,前面的題中已經講到了,時間複雜度是O(n*lg10)。因此總的時間複雜度,是O(n*le)與O(n*lg10)中較大的哪個。
10. 1000萬字符串,其中有些是重複的,須要把重複的所有去掉,保留沒有重複的字符串。請怎麼設計和實現?
上述方案2中讀者xbzju的方法讓我想到了一些問題,便是 set/map,與hash_set/hash_map的性能比較 ?共計3個問題,以下:
或者小數據量時用map,構造快,大數據量時用hash_map?
rbtree PK hashtable
據朋友№邦卡貓№的作的紅黑樹和hash table的性能測試中發現:當數據量基本上int型key時,hash table是rbtree的3-4倍,但hash table通常會浪費大概一半內存。
由於hash table所作的運算就是個%,而rbtree要比較不少,好比rbtree要看value的數據 ,每一個節點要多出3個指針(或者偏移量) 若是須要其餘功能,好比,統計某個範圍內的key的數量,就須要加一個計數成員。
且1s rbtree能進行大概50w+次插入,hash table大概是差很少200w次。不過不少的時候,其速度能夠忍了,例如倒排索引差很少也是這個速度,並且單線程,且倒排表的拉鍊長度不會太大。正由於基於樹的實現其實不比hashtable慢到哪裏去,因此數據庫的索引通常都是用的 B/B+ 樹,並且B+樹還對磁盤友好(B樹能有效下降它的高度,因此減小磁盤交互次數)。好比如今很是流行的NoSQL數據庫,像 MongoDB 也是採用的B樹索引。關於B樹系列,請參考本blog內此篇文章: 從B樹、B+樹、B*樹談到R 樹 。更多請待後續實驗論證。
11. 一個文本文件,找出前10個常常出現的詞,但此次文件比較長,說是上億行或十億行,總之沒法一次讀入內存,問最優解。
方案1:首先根據用hash並求模,將文件分解爲多個小文件,對於單個文件利用上題的方法求出每一個文件件中10個最常出現的詞。而後再進行歸併處理,找出最終的10個最常出現的詞。
12. 100w個數中找出最大的100個數。
方案1:採用局部淘汰法。選取前100個元素,並排序,記爲序列L。而後一次掃描剩餘的元素x,與排好序的100個元素中最小的元素比,若是比這個最小的要大,那麼把這個最小的元素刪除,並把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了全部的元素。複雜度爲O(100w*100)。
方案2:採用快速排序的思想,每次分割以後只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,採用傳統排序算法排序,取前100個。複雜度爲O(100w*100)。
方案3:在前面的題中,咱們已經提到了,用一個含100個元素的最小堆完成。複雜度爲O(100w*lg100)。
接下來,我們來看第二種方法,雙層捅劃分。
雙層桶劃分----其實本質上仍是分而治之的思想,重在「分」的技巧上!
適用範圍:第k大,中位數,不重複或重複的數字
基本原理及要點:由於元素範圍很大,不能利用直接尋址表,因此經過屢次劃分,逐步肯定範圍,而後最後在一個能夠接受的範圍內進行。能夠經過屢次縮小,雙層只是一個例子。
擴展:
問題實例:
1三、2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。
有點像鴿巢原理,整數個數爲2^32,也就是,咱們能夠將這2^32個數,劃分爲2^8個區域(好比用單個文件表明一個區域),而後將數據分離到不一樣的區域,而後不一樣的區域在利用bitmap就能夠直接解決了。也就是說只要有足夠的磁盤空間,就能夠很方便的解決。
1四、5億個int找它們的中位數。
Bloom filter
關於什麼是 Bloom filter ,請參看blog內此文:
適用範圍:能夠用來實現數據字典,進行數據的判重,或者集合求交集
基本原理及要點:
對於原理來講很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時若是發現全部hash函數對應位都是1說明存在,很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,由於該關鍵字對應的位會牽動到其餘的關鍵字。因此一個簡單的改進就是 counting Bloom filter,用一個counter數組代替位數組,就能夠支持刪除了。
還有一個比較重要的問題,如何根據輸入元素個數n,肯定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的狀況下,m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,由於還要保證bit數組裏至少一半爲0,則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2爲底的對數)。
舉個例子咱們假設錯誤率爲0.01,則此時m應大概是n的13倍。這樣k大概是8個。
注意這裏m與n的單位不一樣,m是bit爲單位,而n則是以元素個數爲單位(準確的說是不一樣元素的個數)。一般單個元素的長度都是有不少bit的。因此使用bloom filter內存上一般都是節省的。
擴展:
Bloom filter將集合中的元素映射到位數組中,用k(k爲哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數組中的每一位擴展爲一個counter,從而支持了元素的刪除操做。Spectral Bloom Filter(SBF)將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。
能夠看下上文中的第6題:
「六、給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。若是是三個乃至n個文件呢?
根據這個問題咱們來計算下內存的佔用,4G=2^32大概是40億*8大概是340億,n=50億,若是按出錯率0.01算須要的大概是650億個bit。如今可用的是340億,相差並很少,這樣可能會使出錯率上升些。另外若是這些urlip是一一對應的,就能夠轉換成ip,則大大簡單了。
同時,上文的第5題:給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?若是容許有必定的錯誤率,可使用Bloom filter,4G內存大概能夠表示340億bit。將其中一個文件中的url使用Bloom filter映射爲這340億bit,而後挨個讀取另一個文件的url,檢查是否與Bloom filter,若是是,那麼該url應該是共同的url(注意會有必定的錯誤率)。」
Bitmap
下面關於Bitmap的應用,能夠看下上文中的第13題,以及另一道新題:
「1三、在2.5億個整數中找出不重複的整數,注,內存不足以容納這2.5億個整數。
方案1:採用2-Bitmap(每一個數分配2bit,00表示不存在,01表示出現一次,10表示屢次,11無心義)進行,共需內存2^32 * 2 bit=1 GB內存,還能夠接受。而後掃描這2.5億個整數,查看Bitmap中相對應位,若是是00變01,01變10,10保持不變。所描完過後,查看bitmap,把對應位是01的整數輸出便可。
方案2:也可採用與第1題相似的方法,進行劃分小文件的方法。而後在小文件中找出不重複的整數,並排序。而後再進行歸併,注意去除重複的元素。 」
1五、給40億個不重複的unsigned int的整數,沒排過序的,而後再給一個數,如何快速判斷這個數是否在那40億個數當中?
方案1: frome oo ,用位圖 /Bitmap 的方法,申請512M的內存,一個bit位表明一個unsigned int值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否爲1,爲1表示存在,爲0表示不存在。
Trie樹
適用範圍:數據量大,重複多,可是數據種類小能夠放入內存
基本原理及要點:實現方式,節點孩子的表示方式
擴展:壓縮實現。
問題實例:
更多有關Trie樹的介紹,請參見此文: 從Trie樹(字典樹)談到後綴樹 。
數據庫索引
適用範圍:大數據量的增刪改查
基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。
倒排索引(Inverted index)
適用範圍:搜索引擎,關鍵字查詢
基本原理及要點:爲什麼叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文爲例,下面是要被索引的文本:
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
咱們就能獲得下面的反向文件索引:
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
檢索的條件"what","is"和"it"將對應集合的交集。
正向索引開發出來用來存儲每一個文檔的單詞的列表。正向索引的查詢每每知足每一個文檔有序頻繁的全文查詢和每一個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔佔據了中心的位置,每一個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關係。
擴展:
問題實例:文檔檢索系統,查詢那些文件包含了某單詞,好比常見的學術論文的關鍵字搜索。
關於倒排索引的應用,更多請參見:
適用範圍:大數據的排序,去重
基本原理及要點:外排序的歸併方法,置換選擇敗者樹原理,最優歸併樹
擴展:
問題實例:
1).有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。
這個數據具備很明顯的特色,詞的大小爲16個字節,可是內存只有1M作hash明顯不夠,因此能夠用來排序。內存能夠當輸入緩衝區使用。
關於多路歸併算法及外排序的具體應用場景,請參見blog內此文:
MapReduce是一種計算模型,簡單的說就是將大批量的工做(數據)分解(MAP)執行,而後再將結果合併成最終結果(REDUCE)。這樣作的好處是能夠在任務被分解後,能夠經過大量機器進行並行計算,減小整個操做的時間。但若是你要我再通俗點介紹,那麼,說白了,Mapreduce的原理就是一個歸併排序。
適用範圍:數據量大,可是數據種類小能夠放入內存
基本原理及要點:將數據交給不一樣的機器去處理,數據劃分,結果歸約。
擴展:
問題實例:
更多具體闡述請參見blog內:
至此,六種處理海量數據問題的模式/方法已經闡述完畢。據觀察,這方面的面試題無外乎以上一種或其變形,然題目爲什麼取爲是:秒殺99%的海量數據處理面試題,而不是100%呢。OK,給讀者看最後一道題,以下:
很是大的文件,裝不進內存。每行一個int類型數據,如今要你隨機取100個數 。
咱們發現上述這道題,不管是以上任何一種模式/方法都很差作,那有什麼好的別的方法呢?咱們能夠看看:操做系統內存分頁系統設計(說白了,就是映射+建索引)。
返回上面咱們的題目: 很是大的文件,裝不進內存。每行一個int類型數據,如今要你隨機取100個數 。針對此題,咱們能夠借鑑上述操做系統中內存分頁的設計方法,作出以下解決方案:
操做系統中的方法,先生成4G的地址表,在把這個表劃分爲小的4M的小文件作個索引,二級索引。30位前十位表示第幾個4M文件,後20位表示在這個4M文件的第幾個,等等,基於key value來設計存儲,用key來建索引。
但若是如今只有10000個數,而後怎麼去隨機從這一萬個數裏面隨機取100個數?請讀者思考。更多海里數據處理面試題,請參見此文第一部分: http://blog.csdn.net/v_july_v/article/details/6685962 。
通過上面這麼多海量數據處理面試題的轟炸,咱們依然能夠看出這類問題是有必定的解決方案/模式的,因此,沒必要將其神化。然這類面試題所包含的問題仍是比較簡單的,若您在這方面有更多實踐經驗,歡迎隨時來信與我不吝分享: zhoulei0907@yahoo.cn 。固然,自會註明分享者及來源。
不過,相信你也早就意識到,若單純論海量數據處理面試題,本blog內的有關海量數據處理面試題的文章已涵蓋了你能在網上所找到的7 0~80% 。但有點,必須負責任的敬告你們:不管是這些海量數據處理面試題也好,仍是算法也好, 面試時 , 70~80% 的人不是倒在這兩方面,而是倒在基礎之上( 諸如語言,數據庫,操做系統,網絡協議等等 ),因此, 不管任什麼時候候,基礎最重要 ,沒了基礎,便什麼都不是。若是你問我什麼叫作掌握了基礎,很簡單,我能夠舉個例子,如到這裏: http://forum.csdn.net/BList/Cpp/ ,若是你幾乎能解決那裏的所有問題,那麼你的 c/c++ 基礎便夠了。
最後,推薦國外一面試題網站: http://www.careercup.com/ , 以及我的正在讀的 Redis/MongoDB 絕佳站點: http://blog.nosqlfan.com/ 。
OK,本文如有任何問題,歡迎隨時不吝留言,評論,賜教,謝謝。完。