1.給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?html
假如每一個url大小爲10bytes,那麼能夠估計每一個文件的大小爲50G×64=320G,遠遠大於內存限制的4G,因此不可能將其徹底加載到內存中處理,能夠採用分治的思想來解決。java
Step1:遍歷文件a,對每一個url求取hash(url)%1000,而後根據所取得的值將url分別存儲到1000個小文件(記爲a0,a1,...,a999,每一個小文件約300M);node
Step2:遍歷文件b,採起和a相同的方式將url分別存儲到1000個小文件(記爲b0,b1,...,b999);面試
巧妙之處:這樣處理後,全部可能相同的url都被保存在對應的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不對應的小文件不可能有相同的url。而後咱們只要求出這個1000對小文件中相同的url便可。算法
Step3:求每對小文件ai和bi中相同的url時,能夠把ai的url存儲到hash_set/hash_map中。而後遍歷bi的每一個url,看其是否在剛纔構建的hash_set中,若是是,那麼就是共同的url,存到文件裏面就能夠了。sql
草圖以下(左邊分解A,右邊分解B,中間求解相同url):shell
2.有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M,要求返回頻數最高的100個詞。數據庫
Step1:順序讀文件中,對於每一個詞x,取hash(x)%5000,而後按照該值存到5000個小文件(記爲f0,f1,...,f4999)中,這樣每一個文件大概是200k左右,若是其中的有的文件超過了1M大小,還能夠按照相似的方法繼續往下分,直到分解獲得的小文件的大小都不超過1M;apache
Step2:對每一個小文件,統計每一個文件中出現的詞以及相應的頻率(能夠採用trie樹/hash_map等),並取出出現頻率最大的100個詞(能夠用含100個結點的最小堆),並把100詞及相應的頻率存入文件,這樣又獲得了5000個文件;編程
Step3:把這5000個文件進行歸併(相似與歸併排序);
草圖以下(分割大問題,求解小問題,歸併):
3.現有海量日誌數據保存在一個超級大的文件中,該文件沒法直接讀入內存,要求從中提取某天出訪問百度次數最多的那個IP。
Step1:從這一天的日誌數據中把訪問百度的IP取出來,逐個寫入到一個大文件中;
Step2:注意到IP是32位的,最多有2^32個IP。一樣能夠採用映射的方法,好比模1000,把整個大文件映射爲1000個小文件;
Step3:找出每一個小文中出現頻率最大的IP(能夠採用hash_map進行頻率統計,而後再找出頻率最大的幾個)及相應的頻率;
Step4:在這1000個最大的IP中,找出那個頻率最大的IP,即爲所求。
草圖以下:
4.LVS和HAProxy相比,它的缺點是什麼?
以前,的確是用LVS進行過MySQL集羣的負載均衡,對HAProxy也有過了解,可是將這二者放在眼前進行比較,還真沒試着瞭解過。面試中出現了這麼一題,面試官給予的答案是LVS的配置至關繁瑣,後來查找了相關資料,對這兩種負載均衡方案有了更進一步的瞭解。LVS的負載均衡性能之強悍已經達到硬件負載均衡的F5的百分之60了,而HAproxy的負載均衡和Nginx負載均衡,均爲硬件負載均衡的百分之十左右。因而可知,配置複雜,相應的效果也是顯而易見的。在查找資料的過程當中,試着將LVS的10種調度算法瞭解了一下,看似數量挺多的10種算法其實在不一樣的算法之間,有些只是有着一些細微的差異。在這10種調度算法中,靜態調度算法有四種,動態調度算法有6種。
靜態調度算法:
①RR輪詢調度算法
這種調度算法不考慮服務器的狀態,因此是無狀態的,同時也不考慮每一個服務器的性能,好比我有1-N臺服務器,來N個請求了,第一個請求給第一臺,第二個請求給第二臺,,,第N個請求給第N臺服務器,就醬紫。
②加權輪詢
這種調度算法是考慮到服務器的性能的,你能夠根據不一樣服務器的性能,加上權重進行分配相應的請求。
③基於目的地址的hash散列
這種調度算法和基於源地址的hash散列殊途同歸,都是爲了維持一個session,基於目的地址的hash散列,將記住同一請求的目的地址,將這類請求發往同一臺目的服務器。簡而言之,就是發往這個目的地址的請求都發往同一臺服務器。而基於源地址的hash散列,就是來自同一源地址的請求都發往同一臺服務器。
④基於源地址的hash散列
上述已講,再也不贅述。
動態調度
①最少鏈接調度算法
這種調度算法會記錄響應請求的服務器上所創建的鏈接數,每接收到一個請求會相應的將該服務器的所創建鏈接數加1,同時將新來的請求分配到當前鏈接數最少的那臺機器上。
②加權最少鏈接調度算法
這種調度算法在最少鏈接調度算法的基礎上考慮到服務器的性能。固然,作這樣子的考慮是有其合理性存在的,若是是同一規格的服務器,那麼創建的鏈接數越多,必然越增長其負載,那麼僅僅根據最少鏈接數的調度算法,必然能夠實現合理的負載均衡。但若是,服務器的性能不同呢?好比我有一臺服務器,最多隻能處理10個鏈接,如今創建了3個,還有一臺服務器最多能處理1000條鏈接,如今創建了5個,若是單純地按照上述的最少鏈接調度算法,妥妥的前者嘛,但前者已經創建了百分之三十的鏈接了,然後者連百分之一的鏈接尚未創建,試問,這合理嗎?顯然不合理。因此加上權重,纔算合理。相應的公式也至關簡單:active*256/weight。
③最短時間望調度算法
這種算法,是避免出現上述加權最少鏈接調度算法中的一種特殊狀況,致使即便加上權重,調度器也無差異對待了,舉個栗子:
假設有三臺服務器ABC,其當前所創建的鏈接數相應地爲1,2,3,而權重也是1,2,3。那麼若是按照加權最少鏈接調度算法的話,算出來是這樣子的:
A:1256/1=256
B:2256/2=256
C:3256/3=256
咱們會發現,即使加上權重,A、B、C,通過計算仍是同樣的,這樣子調度器會無差異的在A、B、C中任選一臺,將請求發過去。
而最短時間望將active256/weight的算法改進爲(active+1)256/weight
那麼仍是以前的例子:
A:(1+1)256/1=2/1256=2256
B:(2+1)256/2=3/2256=1.5256
C:(3+1)25六、3=4/3256≈1.3256
顯然C
④永不排隊算法
將請求發給當前鏈接數爲0的服務器上。
⑤基於局部的最少鏈接調度算法
這種調度算法應用於Cache系統,維持一個請求到一臺服務器的映射,其實咱們仔細想一想哈,以前作的一系列最少鏈接相關的調度算法。考慮到的是服務器的狀態與性能,可是一次請求並非單向的,就像有一個從未合做過的大牛,他很閒,你讓他去解決一個以前碰到過的一個問題,未必有找一個以前已經跟你合做過哪怕如今不怎麼閒的臭皮匠效果好哦~,因此基於局部的最少鏈接調度算法,維持的這種映射的做用是,若是來了一個請求,相對應的映射的那臺服務器,沒有超載,ok交給老夥伴完事吧,俺放心,若是那臺服務器不存在,或者是超載的狀態且有其餘服務器工做在一半的負載狀態,則按最少鏈接調度算法在集羣其他的服務器中找一臺將請求分配給它。
⑥基於複製的局部最少鏈接調度算法
這種調度算法一樣應用於cache系統,但它維持的不是到一臺服務器的映射而是到一組服務器的映射,當有新的請求到來,根據最小鏈接原則,從該映射的服務器組中選擇一臺服務器,若是它沒有超載則交給它去處理這個請求,若是發現它超載,則從服務器組外的集羣中,按最少鏈接原則拉一臺機器加入服務器組,而且在服務器組有一段時間未修改後,將最忙的那臺服務器從服務器組中剔除。
5.Sqoop用起來感受怎樣?
說實話,Sqoop在導入數據的速度上確實十分感人,經過進一步瞭解,發現Sqoop1和Sqoop2在架構上仍是有明顯不一樣的,不管是從數據類型上仍是從安全權限,密碼暴露方面,Sqoop2都有了明顯的改進,同時同一些其餘的異構數據同步工具比較,如淘寶的DataX或者Kettle相比,Sqoop不管是從導入數據的效率上仍是從支持插件的豐富程度上,Sqoop仍是至關不錯滴!!
6.ZooKeeper的角色以及相應的Zookepper工做原理?
果真,人的記憶力是有衰減曲線的,當面試官拋出這個問題後,前者角色,我只答出了兩種(leader和follower),後者原理壓根就模糊至忘記了。因此惡補了一下,涉及到Zookeeper的角色大概有以下四種:leader、learner(follower)、observer、client。其中leader主要用來決策和調度,follower和observer的區別僅僅在於後者沒有寫的職能,但都有將client請求提交給leader的職能,而observer的出現是爲了應對當投票壓力過大這種情形的,client就是用來發起請求的。而Zookeeper所用的分佈式一致性算法包括leader的選舉其實和-原始部落的得到神器爲酋長,或者得玉璽者爲皇帝相似,誰id最小,誰爲leader,會根據你所配置的相應的文件在相應的節點機下生成id,而後相應的節點會經過getchildren()這個函數獲取以前設置的節點下生成的id,誰最小,誰是leader。而且若是萬一這個leader掛掉了或者墮落了,則由次小的頂上。並且在配置相應的zookeeper文件的時候回有相似於以下字樣的信息:Server.x=AAAA:BBBB:CCCC。其中的x即爲你的節點號哈,AAAA對應你所部屬zookeeper所在的ip地址,BBBB爲接收client請求的端口,CCCC爲從新選舉leader端口。
7.HBase的Insert與Update的區別?
這個題目是就着最近的一次項目問的,當時實現的與hbase交互的三個方法分別爲insert、delete、update。因爲那個項目是對接的一個項目,對接的小夥伴和我協商了下,不將update合併爲insert,若是合併的話,按那個項目自己,其實經過insert執行overwrite至關於間接地Update,本質上,或者說在展示上是沒什麼區別的包括所調用的put。但那僅僅是就着那個項目的程序而言,若是基於HBaseshell層面。將同一rowkey的數據插入HBase,其實雖然展示一條,可是相應的timestamp是不同的,並且最大的版本數能夠經過配置文件進行相應地設置。
8.請簡述大數據的結果展示方式。
1)報表形式
基於數據挖掘得出的數據報表,包括數據表格、矩陣、圖形和自定義格式的報表等,使用方便、設計靈活。
2)圖形化展示
提供曲線、餅圖、堆積圖、儀表盤、魚骨分析圖等圖形形式宏觀展示模型數據的分佈狀況,從而便於進行決策。
3)KPI展示
提供表格式績效一覽表並可自定義績效查看方式,如數據表格或走勢圖,企業管理者可根據可度量的目標快速評估進度。
4)查詢展示
按數據查詢條件和查詢內容,以數據表格來彙總查詢結果,提供明細查詢功能,並可在查詢的數據表格基礎上進行上鑽、下鑽、旋轉等操做。
9.例舉身邊的大數據。
i.QQ,微博等社交軟件產生的數據
ii.天貓,京東等電子商務產生的數據
iii.互聯網上的各類數據
10.簡述大數據的數據管理方式。
答:對於圖像、視頻、URL、地理位置等類型多樣的數據,難以用傳統的結構化方式描述,所以須要使用由多維表組成的面向列存儲的數據管理系統來組織和管理數據。也就是說,將數據按行排序,按列存儲,將相同字段的數據做爲一個列族來聚合存儲。不一樣的列族對應數據的不一樣屬性,這些屬性能夠根據需求動態增長,經過這樣的分佈式實時列式數據庫對數據統一進行結構化存儲和管理,避免了傳統數據存儲方式下的關聯查詢。
11.什麼是大數據?
答:大數據是指沒法在允許的時間內用常規軟件工具對其內容進行抓取、管理和處理的數據。
12.海量日誌數據,提取出某日訪問百度次數最多的那個IP。
首先是這一天,而且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。一樣能夠採用映射的方法,好比模1000,把整個大文件映射爲1000個小文件,再找出每一個小文中出現頻率最大的IP(能夠採用hash_map進行頻率統計,而後再找出頻率最大的幾個)及相應的頻率。而後再在這1000個最大的IP中,找出那個頻率最大的IP,即爲所求。
或者以下闡述(雪域之鷹):
算法思想:分而治之+Hash
1)IP地址最多有2^32=4G種取值狀況,因此不能徹底加載到內存中處理;
2)能夠考慮採用「分而治之」的思想,按照IP地址的Hash(IP)%1024值,把海量IP日誌分別存儲到1024個小文件中。這樣,每一個小文件最多包含4MB個IP地址;
3)對於每個小文件,能夠構建一個IP爲key,出現次數爲value的Hashmap,同時記錄當前出現次數最多的那個IP地址;
4)能夠獲得1024個小文件中的出現次數最多的IP,再依據常規的排序算法獲得整體上出現次數最多的IP;
13.搜索引擎會經過日誌文件把用戶每次檢索使用的全部檢索串都記錄下來,每一個查詢串的長度爲1-255字節。
假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但若是除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門。),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。
典型的TopK算法,仍是在這篇文章裏頭有所闡述,詳情請參見:11、從頭至尾完全解析Hash表算法。
文中,給出的最終算法是:
第一步、先對這批海量數據預處理,在O(N)的時間內用Hash表完成統計(以前寫成了排序,特此訂正。July、2011.04.27);
第二步、藉助堆這個數據結構,找出TopK,時間複雜度爲N‘logK。
即,藉助堆結構,咱們能夠在log量級的時間內查找和調整/移動。所以,維護一個K(該題目中是10)大小的小根堆,而後遍歷300萬的Query,分別和根元素進行對比因此,咱們最終的時間複雜度是:O(N)+N’*O(logK),(N爲1000萬,N’爲300萬)。ok,更多,詳情,請參考原文。
或者:採用trie樹,關鍵字域存該查詢串出現的次數,沒有出現爲0。最後用10個元素的最小推來對出現頻率進行排序。
14.有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。
方案:順序讀文件中,對於每一個詞x,取hash(x)%5000,而後按照該值存到5000個小文件(記爲x0,x1,…x4999)中。這樣每一個文件大概是200k左右。
若是其中的有的文件超過了1M大小,還能夠按照相似的方法繼續往下分,直到分解獲得的小文件的大小都不超過1M。
對每一個小文件,統計每一個文件中出現的詞以及相應的頻率(能夠採用trie樹/hash_map等),並取出出現頻率最大的100個詞(能夠用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又獲得了5000個文件。下一步就是把這5000個文件進行歸併(相似與歸併排序)的過程了。
15.有10個文件,每一個文件1G,每一個文件的每一行存放的都是用戶的query,每一個文件的query均可能重複。要求你按照query的頻度排序。
仍是典型的TOPK算法,解決方案以下:
方案1:
順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記爲)中。這樣新生成的文件每一個的大小大約也1G(假設hash函數是隨機的)。
找一臺內存在2G左右的機器,依次對用hash_map(query,query_count)來統計每一個query出現的次數。利用快速/堆/歸併排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣獲得了10個排好序的文件(記爲)。
對這10個文件進行歸併排序(內排序與外排序相結合)。
方案2:
通常query的總量是有限的,只是重複的次數比較多而已,可能對於全部的query,一次性就能夠加入到內存了。這樣,咱們就能夠採用trie樹/hash_map等直接來統計每一個query出現的次數,而後按出現次數作快速/堆/歸併排序就能夠了。
方案3:
與方案1相似,但在作完hash,分紅多個文件後,能夠交給多個文件來處理,採用分佈式的架構來處理(好比MapReduce),最後再進行合併。
16.給定a、b兩個文件,各存放50億個url,每一個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?
方案1:能夠估計每一個文件安的大小爲5G×64=320G,遠遠大於內存限制的4G。因此不可能將其徹底加載到內存中處理。考慮採起分而治之的方法。
遍歷文件a,對每一個url求取hash(url)%1000,而後根據所取得的值將url分別存儲到1000個小文件(記爲a0,a1,…,a999)中。這樣每一個小文件的大約爲300M。
遍歷文件b,採起和a相同的方式將url分別存儲到1000小文件(記爲b0,b1,…,b999)。這樣處理後,全部可能相同的url都在對應的小文件(a0vsb0,a1vsb1,…,a999vsb999)中,不對應的小文件不可能有相同的url。而後咱們只要求出1000對小文件中相同的url便可。
求每對小文件中相同的url時,能夠把其中一個小文件的url存儲到hash_set中。而後遍歷另外一個小文件的每一個url,看其是否在剛纔構建的hash_set中,若是是,那麼就是共同的url,存到文件裏面就能夠了。
方案2:若是容許有必定的錯誤率,能夠使用Bloomfilter,4G內存大概能夠表示340億bit。將其中一個文件中的url使用Bloomfilter映射爲這340億bit,而後挨個讀取另一個文件的url,檢查是否與Bloomfilter,若是是,那麼該url應該是共同的url(注意會有必定的錯誤率)。
Bloomfilter往後會在本BLOG內詳細闡述。
17.在2.5億個整數中找出不重複的整數,注,內存不足以容納這2.5億個整數。
方案1:採用2-Bitmap(每一個數分配2bit,00表示不存在,01表示出現一次,10表示屢次,11無心義)進行,共需內存2^32*2bit=1GB內存,還能夠接受。而後掃描這2.5億個整數,查看Bitmap中相對應位,若是是00變01,01變10,10保持不變。所描完過後,查看bitmap,把對應位是01的整數輸出便可。
方案2:也可採用與第1題相似的方法,進行劃分小文件的方法。而後在小文件中找出不重複的整數,並排序。而後再進行歸併,注意去除重複的元素。
18.騰訊面試題:給40億個不重複的unsignedint的整數,沒排過序的,而後再給一個數,如何快速判斷這個數是否在那40億個數當中?
與上第6題相似,個人第一反應時快速排序+二分查找。如下是其它更好的方法:
方案1:oo,申請512M的內存,一個bit位表明一個unsignedint值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否爲1,爲1表示存在,爲0表示不存在。
dizengrong:
方案2:這個問題在《編程珠璣》裏有很好的描述,你們能夠參考下面的思路,探討一下:
又由於2^32爲40億多,因此給定一個數可能在,也可能不在其中;
這裏咱們把40億個數中的每個用32位的二進制來表示
假設這40億個數開始放在一個文件中。
而後將這40億個數分紅兩類:
1.最高位爲0
2.最高位爲1
並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=20億,而另外一個>=20億(這至關於折半了);
與要查找的數的最高位比較並接着進入相應的文件再查找
再而後把這個文件爲又分紅兩類:
1.次最高位爲0
2.次最高位爲1
並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=10億,而另外一個>=10億(這至關於折半了);
與要查找的數的次最高位比較並接着進入相應的文件再查找。
…….
以此類推,就能夠找到了,並且時間複雜度爲O(logn),方案2完。
附:這裏,再簡單介紹下,位圖方法:
使用位圖法判斷整形數組是否存在重複
判斷集合中存在重複是常見編程任務之一,當集合中數據量比較大時咱們一般但願少進行幾回掃描,這時雙重循環法就不可取了。
位圖法比較適合於這種狀況,它的作法是按照集合中最大元素max建立一個長度爲max+1的新數組,而後再次掃描原數組,遇到幾就給新數組的第幾位置上1,如遇到5就給新數組的第六個元素置1,這樣下次再遇到5想置位時發現新數組的第六個元素已是1了,這說明此次的數據確定和之前的數據存在着重複。這種給新數組初始化時置零其後置一的作法相似於位圖的處理方法故稱位圖法。它的運算次數最壞的狀況爲2N。若是已知數組的最大值即能事先給新數組定長的話效率還能提升一倍。
歡迎,有更好的思路,或方法,共同交流。
19.怎麼在海量數據中找出重複次數最多的一個?
方案1:先作hash,而後求模映射爲小文件,求出每一個小文件中重複次數最多的一個,並記錄重複次數。而後找出上一步求出的數據中重複次數最多的一個就是所求(具體參考前面的題)。
20.上千萬或上億數據(有重複),統計其中出現次數最多的錢N個數據。
方案1:上千萬或上億的數據,如今的機器的內存應該能存下。因此考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。而後就是取出前N個出現次數最多的數據了,能夠用第2題提到的堆機制完成。
21.一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞,請給出思想,給出時間複雜度分析。
方案1:這題是考慮時間效率。用trie樹統計每一個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度)。而後是找出出現最頻繁的前10個詞,能夠用堆來實現,前面的題中已經講到了,時間複雜度是O(n*lg10)。因此總的時間複雜度,是O(n*le)與O(n*lg10)中較大的哪個。
附、100w個數中找出最大的100個數。
方案1:在前面的題中,咱們已經提到了,用一個含100個元素的最小堆完成。複雜度爲O(100w*lg100)。
方案2:採用快速排序的思想,每次分割以後只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,採用傳統排序算法排序,取前100個。複雜度爲O(100w*100)。
方案3:採用局部淘汰法。選取前100個元素,並排序,記爲序列L。而後一次掃描剩餘的元素x,與排好序的100個元素中最小的元素比,若是比這個最小的要大,那麼把這個最小的元素刪除,並把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了全部的元素。複雜度爲O(100w*100)。
第二部分、十個海量數據處理方法大總結
ok,看了上面這麼多的面試題,是否有點頭暈。是的,須要一個總結。接下來,本文將簡單總結下一些處理海量數據問題的常見方法,而往後,本BLOG內會具體闡述這些方法。
1、Bloomfilter
適用範圍:能夠用來實現數據字典,進行數據的判重,或者集合求交集
基本原理及要點:
對於原理來講很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時若是發現全部hash函數對應位都是1說明存在,很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,由於該關鍵字對應的位會牽動到其餘的關鍵字。因此一個簡單的改進就是countingBloomfilter,用一個counter數組代替位數組,就能夠支持刪除了。
還有一個比較重要的問題,如何根據輸入元素個數n,肯定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的狀況下,m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,由於還要保證bit數組裏至少一半爲0,則m應該>=nlg(1/E)*lge大概就是nlg(1/E)1.44倍(lg表示以2爲底的對數)。
舉個例子咱們假設錯誤率爲0.01,則此時m應大概是n的13倍。這樣k大概是8個。
注意這裏m與n的單位不一樣,m是bit爲單位,而n則是以元素個數爲單位(準確的說是不一樣元素的個數)。一般單個元素的長度都是有不少bit的。因此使用bloomfilter內存上一般都是節省的。
擴展:
Bloomfilter將集合中的元素映射到位數組中,用k(k爲哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Countingbloomfilter(CBF)將位數組中的每一位擴展爲一個counter,從而支持了元素的刪除操做。SpectralBloomFilter(SBF)將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。
問題實例:給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。若是是三個乃至n個文件呢?
根據這個問題咱們來計算下內存的佔用,4G=2^32大概是40億*8大概是340億,n=50億,若是按出錯率0.01算須要的大概是650億個bit。如今可用的是340億,相差並很少,這樣可能會使出錯率上升些。另外若是這些urlip是一一對應的,就能夠轉換成ip,則大大簡單了。
2、Hashing
適用範圍:快速查找,刪除的基本數據結構,一般須要總數據量能夠放入內存
基本原理及要點:
hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。
碰撞處理,一種是openhashing,也稱爲拉鍊法;另外一種就是closedhashing,也稱開地址法,openedaddressing。
擴展:
d-lefthashing中的d是多個的意思,咱們先簡化這個問題,看一看2-lefthashing。2-lefthashing指的是將一個哈希表分紅長度相等的兩半,分別叫作T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時須要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪個位置已經存儲的(有碰撞的)key比較多,而後將新key存儲在負載少的位置。若是兩邊同樣多,好比兩個位置都爲空或者都存儲了一個key,就把新key存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。
問題實例:
1).海量日誌數據,提取出某日訪問百度次數最多的那個IP。
IP的數目仍是有限的,最多2^32個,因此能夠考慮使用hash將ip直接存入內存,而後進行統計。
3、bit-map
適用範圍:可進行數據的快速查找,判重,刪除,通常來講數據範圍是int的10倍如下
基本原理及要點:使用bit數組來表示某些元素是否存在,好比8位電話號碼
擴展:bloomfilter能夠看作是對bit-map的擴展
問題實例:
1)已知某個文件內包含一些電話號碼,每一個號碼爲8位數字,統計不一樣號碼的個數。
8位最多99999999,大概須要99m個bit,大概10幾m字節的內存便可。
2)2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。
將bit-map擴展一下,用2bit表示一個數便可,0表示未出現,1表示出現一次,2表示出現2次及以上。或者咱們不用2bit來進行表示,咱們用兩個bit-map便可模擬實現這個2bit-map。
4、堆
適用範圍:海量數據前n大,而且n比較小,堆能夠放入內存
基本原理及要點:最大堆求前n小,最小堆求前n大。方法,好比求前n小,咱們比較當前元素與最大堆裏的最大元素,若是它小於最大元素,則應該替換那個最大元素。這樣最後獲得的n個元素就是最小的n個。適合大數據量,求前n小,n的大小比較小的狀況,這樣能夠掃描一遍便可獲得全部的前n元素,效率很高。
擴展:雙堆,一個最大堆與一個最小堆結合,能夠用來維護中位數。
問題實例:
1)100w個數中找最大的前100個數。
用一個100個元素大小的最小堆便可。
5、雙層桶劃分—-其實本質上就是【分而治之】的思想,重在「分」的技巧上!
適用範圍:第k大,中位數,不重複或重複的數字
基本原理及要點:由於元素範圍很大,不能利用直接尋址表,因此經過屢次劃分,逐步肯定範圍,而後最後在一個能夠接受的範圍內進行。能夠經過屢次縮小,雙層只是一個例子。
擴展:
問題實例:
1).2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。
有點像鴿巢原理,整數個數爲2^32,也就是,咱們能夠將這2^32個數,劃分爲2^8個區域(好比用單個文件表明一個區域),而後將數據分離到不一樣的區域,而後不一樣的區域在利用bitmap就能夠直接解決了。也就是說只要有足夠的磁盤空間,就能夠很方便的解決。
2).5億個int找它們的中位數。
這個例子比上面那個更明顯。首先咱們將int劃分爲2^16個區域,而後讀取數據統計落到各個區域裏的數的個數,以後咱們根據統計結果就能夠判斷中位數落到那個區域,同時知道這個區域中的第幾大數恰好是中位數。而後第二次掃描咱們只統計落在這個區域中的那些數就能夠了。
實際上,若是不是int是int64,咱們能夠通過3次這樣的劃分便可下降到能夠接受的程度。便可以先將int64分紅2^24個區域,而後肯定區域的第幾大數,在將該區域分紅2^20個子區域,而後肯定是子區域的第幾大數,而後子區域裏的數的個數只有2^20,就能夠直接利用directaddrtable進行統計了。
6、數據庫索引
適用範圍:大數據量的增刪改查
基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。
7、倒排索引(Invertedindex)
適用範圍:搜索引擎,關鍵字查詢
基本原理及要點:爲什麼叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文爲例,下面是要被索引的文本:
T0=「itiswhatitis」
T1=「whatisit」
T2=「itisabanana」
咱們就能獲得下面的反向文件索引:
「a」:{2}
「banana」:{2}
「is」:{0,1,2}
「it」:{0,1,2}
「what」:{0,1}
檢索的條件」what」,」is」和」it」將對應集合的交集。
正向索引開發出來用來存儲每一個文檔的單詞的列表。正向索引的查詢每每知足每一個文檔有序頻繁的全文查詢和每一個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔佔據了中心的位置,每一個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關係。
擴展:
問題實例:文檔檢索系統,查詢那些文件包含了某單詞,好比常見的學術論文的關鍵字搜索。
8、外排序
適用範圍:大數據的排序,去重
基本原理及要點:外排序的歸併方法,置換選擇敗者樹原理,最優歸併樹
擴展:
問題實例:
1).有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。
這個數據具備很明顯的特色,詞的大小爲16個字節,可是內存只有1m作hash有些不夠,因此能夠用來排序。內存能夠當輸入緩衝區使用。
9、trie樹
適用範圍:數據量大,重複多,可是數據種類小能夠放入內存
基本原理及要點:實現方式,節點孩子的表示方式
擴展:壓縮實現。
問題實例:
1).有10個文件,每一個文件1G,每一個文件的每一行都存放的是用戶的query,每一個文件的query均可能重複。要你按照query的頻度排序。
2).1000萬字符串,其中有些是相同的(重複),須要把重複的所有去掉,保留沒有重複的字符串。請問怎麼設計和實現?
3).尋找熱門查詢:查詢串的重複度比較高,雖然總數是1千萬,但若是除去重複後,不超過3百萬個,每一個不超過255字節。
10、分佈式處理mapreduce
適用範圍:數據量大,可是數據種類小能夠放入內存
基本原理及要點:將數據交給不一樣的機器去處理,數據劃分,結果歸約。
擴展:
問題實例:
1).ThecanonicalexampleapplicationofMapReduceisaprocesstocounttheappearancesof
eachdifferentwordinasetofdocuments:
2).海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。
3).一共有N個機器,每一個機器上有N個數。每一個機器最多存O(N)個數並對它們操做。如何找到N^2個數的中數(median)?
經典問題分析
上千萬or億數據(有重複),統計其中出現次數最多的前N個數據,分兩種狀況:可一次讀入內存,不可一次讀入。
可用思路:trie樹+堆,數據庫索引,劃分子集分別統計,hash,分佈式計算,近似統計,外排序
所謂的是否能一次讀入內存,實際上應該指去除重複後的數據量。若是去重後數據能夠放入內存,咱們能夠爲數據創建字典,好比經過map,hashmap,trie,而後直接進行統計便可。固然在更新每條數據的出現次數的時候,咱們能夠利用一個堆來維護出現次數最多的前N個數據,固然這樣致使維護次數增長,不如徹底統計後在求前N大效率高。
若是數據沒法放入內存。一方面咱們能夠考慮上面的字典方法可否被改進以適應這種情形,能夠作的改變就是將字典存放到硬盤上,而不是內存,這能夠參考數據庫的存儲方法。
固然還有更好的方法,就是能夠採用分佈式計算,基本上就是map-reduce過程,首先能夠根據數據值或者把數據hash(md5)後的值,將數據按照範圍劃分到不一樣的機子,最好可讓數據劃分後能夠一次讀入內存,這樣不一樣的機子負責處理各類的數值範圍,實際上就是map。獲得結果後,各個機子只需拿出各自的出現次數最多的前N個數據,而後彙總,選出全部的數據中出現次數最多的前N個數據,這實際上就是reduce過程。
實際上可能想直接將數據均分到不一樣的機子上進行處理,這樣是沒法獲得正確的解的。由於一個數據可能被均分到不一樣的機子上,而另外一個則可能徹底彙集到一個機子上,同時還可能存在具備相同數目的數據。好比咱們要找出現次數最多的前100個,咱們將1000萬的數據分佈到10臺機器上,找到每臺出現次數最多的前100個,歸併以後這樣不能保證找到真正的第100個,由於好比出現次數最多的第100個可能有1萬個,可是它被分到了10臺機子,這樣在每臺上只有1千個,假設這些機子排名在1000個以前的那些都是單獨分佈在一臺機子上的,好比有1001個,這樣原本具備1萬個的這個就會被淘汰,即便咱們讓每臺機子選出出現次數最多的1000個再歸併,仍然會出錯,由於可能存在大量個數爲1001個的發生彙集。所以不能將數據隨便均分到不一樣機子上,而是要根據hash後的值將它們映射到不一樣的機子上處理,讓不一樣的機器處理一個數值範圍。
而外排序的方法會消耗大量的IO,效率不會很高。而上面的分佈式方法,也能夠用於單機版本,也就是將總的數據根據值的範圍,劃分紅多個不一樣的子文件,而後逐個處理。處理完畢以後再對這些單詞的及其出現頻率進行一個歸併。實際上就能夠利用一個外排序的歸併過程。
另外還能夠考慮近似計算,也就是咱們能夠經過結合天然語言屬性,只將那些真正實際中出現最多的那些詞做爲一個字典,使得這個規模能夠放入內存。
【某公司筆試面試題】
1使用mr,spark,sparksql編寫wordcount程序
【Spark版本】
valconf=newSparkConf().setAppName("wd").setMaster("local[1]")
valsc=newSparkContext(conf,2)
//加載
vallines=sc.textFile("tructField("name",DataTypes.StringType,true)")
valparis=lines.flatMap(line=>line.split("^A"))
valwords=paris.map((_,1))
valresult=words.reduceByKey(_+_).sortBy(x=>x._1,false)
//打印
result.foreach(
wds=>{
println("單詞:"+wds._1+"個數:"+wds._2)
}
)
sc.stop()
【sparksql版本】
valconf=newSparkConf().setAppName("sqlWd").setMaster("local[1]")
valsc=newSparkContext(conf)
valsqlContext=newSQLContext(sc)
//加載
vallines=sqlContext.textFile("E:idea15createRecommederdatawords.txt")
valwords=lines.flatMap(x=>x.split("")).map(y=>Row(y))
valstructType=StructType(Array(StructField("name",DataTypes.StringType,true)))
valdf=sqlContext.createDataFrame(rows,structType)
df.registerTempTable("t_word_count")
sqlContext.udf.register("num_word",(name:String)=>1)
sqlContext.sql("selectname,num_word(name)fromt_word_count").groupBy(df.col("name")).count().show()
sc.stop()
2hive的使用,內外部表的區別,分區做用,UDF和Hive優化
(1)hive使用:倉庫、工具
(2)hive內外部表:內部表數據永久刪除,外部表數據刪除後、其餘人依然能夠訪問
(3)分區做用:防止數據傾斜
(4)UDF函數:用戶自定義的函數(主要解決格式,計算問題),須要繼承UDF類
java代碼實現
classTestUDFHiveextendsUDF{
publicStringevalute(Stringstr){
try{
return"hello"+str
}catch(Exceptione){
returnstr+"error"
}
}
}
(5)Hive優化:看作mapreduce處理
a排序優化:sortby效率高於orderby
b分區:使用靜態分區(statu_date="20160516",location="beijin"),每一個分區對應hdfs上的一個目錄
c減小job和task數量:使用表連接操做
d解決groupby數據傾斜問題:設置hive.groupby.skewindata=true,那麼hive會自動負載均衡
e小文件合併成大文件:錶鏈接操做
f使用UDF或UDAF函數:hive中UDTF編寫和使用(轉) - ggjucheng - 博客園
3Hbase的rk設計,Hbase優化
aowkey:hbase三維存儲中的關鍵(rowkey:行鍵,columnKey(family+quilaty):列鍵,timestamp:時間戳)
owkey字典排序、越短越好
使用id+時間:9527+20160517使用hash散列:dsakjkdfuwdsf+9527+20160518
應用中,rowkey通常10~100bytes,8字節的整數倍,有利於提升操做系統性能
bHbase優化
分區:RegionSplit()方法NUMREGIONS=9
column不超過3個
硬盤配置,便於regionServer管理和數據備份及恢復
分配合適的內存給regionserver
其餘:
hbase查詢
(1)get
(2)scan
使用startRow和endRow限制
4Linux經常使用操做
aawk:
awk-F:`BEGIN{print"nameip"}{print$1$7}END{print"結束"}`/etc/passwd
last|head-5|awk`BEGIN{print"nameip"}{print$1$3}END{print"結束了"}`
bsed
5java線程2種方式實現、設計模式、鏈表操做、排序
(1)2種線程實現
aThread類繼承
TestCLth=newTestCL()//類繼承Thread
th.start()
b實現Runnable接口
Threadth=newThread(newRunnable(){
publicvoidrun(){
//實現
}
})
th.start()
(2)設計模式,分爲4類
a建立模式:如工廠模式、單例模式
b結構模式:代理模式
c行爲模式:觀察者模式
d線程池模式
6【最熟悉的一個項目簡介、架構圖、使用的技術、你負責哪塊】
7cdh集羣監控
(1)數據庫監控(2)主機監控(3)服務監控(4)活動監控
8計算機網絡工做原理
將分散的機器經過數據通訊原理鏈接起來,實現共享!
9hadoop生態系統
hdfsmapreducehivehbasezookeeperlume
hdfs原理及各個模塊的功能mapreduce原理mapreduce優化數據傾斜
11系統維護:hadoop升級datanode節點
12【講解項目要點:數據量、多少人、分工、運行時間、項目使用機器、算法、技術】
13【學會向對方提問】
14jvm運行機制及內存原理
運行:
I加載.class文件
II管理而且分配內存
III垃圾回收
內存原理:
IJVM裝載環境和配置
II裝載JVM.dll並初始化JVM.dll
IV處理class類
15hdfs、yarn參數調優
mapreduce.job.jvm.num.tasks
默認爲1,設置爲-1,重用jvm
16Hbase、Hive、impala、zookeeper、Storm、spark原理和使用方法、使用其架構圖講解
【某公司筆試題】
一、如何爲一個hadoop任務設置mappers的數量
答案:
使用job.setNumMapTask(intn)手動分割,這是不靠譜的
官方文檔:「Note:Thisisonlyahinttotheframework」說明這個方法只是提示做用,不起決定性做用
實際上要用公式計算:
Max(min.split,min(max.split,block))就設置分片的最大最下值computeSplitSize()設置
參考:深度分析如何在Hadoop中控制Map的數量 - 張貴賓的技術專欄 - 博客頻道 - CSDN.NET
二、有可能使hadoop任務輸出到多個目錄中麼?若是能夠,怎麼作?
答案:在1.X版本後使用MultipleOutputs.java類實現
源碼:
MultipleOutputs.addNamedOutput(conf,"text2",TextOutputFormat.class,Long.class,String.class);
MultipleOutputs.addNamedOutput(conf,"text3",TextOutputFormat.class,Long.class,String.class);
參考:MapReduce中的自定義多目錄/文件名輸出HDFS - leejun2005的我的頁面 - 開源中國社區
發音:Multiple['m?lt?pl]--》許多的
三、如何爲一個hadoop任務設置要建立的reducer的數量
答案:job.setNumReduceTask(intn)
或者調整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默認參數值
四、在hadoop中定義的主要公用InputFormats中,哪個是默認值:
(A)TextInputFormat
(B)KeyValueInputFormat
(C)SequenceFileInputFormat
答案:A
五、兩個類TextInputFormat和KeyValueTextInputFormat的區別?
答案:
?FileInputFormat的子類:
TextInputFormat(默認類型,鍵是LongWritable類型,值爲Text類型,key爲當前行在文件中的偏移量,value爲當前行自己);
?KeyValueTextInputFormat(適合文件自帶key,value的狀況,只要指定分隔符便可,比較實用,默認是分割);
源碼:
StringsepStr=job.get("mapreduce.input.keyvaluelinerecordreader.key.value.separator","");
注意:在自定義輸入格式時,繼承FileInputFormat父類
六、在一個運行的hadoop任務中,什麼是InputSpilt?
答案:InputSplit是MapReduce對文件進行處理和運算的輸入單位,只是一個邏輯概念,每一個InputSplit並無對文件實際的切割,只是記錄了要處理的數據的位置(包括文件的path和hosts)和長度(由start和length決定),默認狀況下與block同樣大。
拓展:須要在定義InputSplit後,展開講解mapreduce的原理
七、Hadoop框架中,文件拆分是怎麼被調用的?
答案:JobTracker,建立一個InputFormat的實例,調用它的getSplits()方法,把輸入目錄的文件拆分紅FileSplist做爲Mappertask的輸入,生成Mappertask加入Queue。
源碼中體現了拆分的數量
longgoalSize=totalSize/(numSplits==0?1:numSplits);
longminSize=Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
FileInputFormat.SPLIT_MINSIZE,1),minSplitSize);//minSplitSize默認是1
八、分別舉例什麼狀況下使用combiner,什麼狀況下不會使用?
答案:Combiner適用於對記錄彙總的場景(如求和),可是,求平均數的場景就不能使用Combiner了
九、Hadoop中job和Tasks之間的區別是什麼?
答案:
job是工做的入口,負責控制、追蹤、管理任務,也是一個進程
包含maptask和reducetask
Tasks是map和reduce裏面的步驟,主要用於完成任務,也是線程
十、Hadoop中經過拆分任務到多個節點運行來實現並行計算,可是某些節點運行較慢會拖慢整個任務的運行,hadoop採用何種機制應對這種狀況?
答案:結果查看監控日誌,得知產生這種現象的緣由是數據傾斜問題
解決:
(1)調整拆分mapper的數量(partition數量)
(2)增長jvm
(3)適當地將reduce的數量變大
十一、流API中的什麼特性帶來能夠使mapreduce任務能夠以不一樣語言(如perlubyawk等)實現的靈活性?
答案:用可執行文件做爲Mapper和Reducer,接受的都是標準輸入,輸出的都是標準輸出
十二、參考下面的M/R系統的場景:
--HDFS塊大小爲64MB
--輸入類型爲FileInputFormat
--有3個文件的大小分別是:64k65MB127MB
Hadoop框架會把這些文件拆分爲多少塊?
答案:
64k------->一個block
65MB---->兩個文件:64MB是一個block,1MB是一個block
127MB--->兩個文件:64MB是一個block,63MB是一個block
1三、Hadoop中的RecordReader的做用是什麼?
答案:屬於split和mapper之間的一個過程
將inputsplit輸出的行爲一個轉換記錄,成爲key-value的記錄形式提供給mapper
1四、Map階段結束後,Hadoop框架會處理:Partitioning,shuffle和sort,在這個階段都會發生了什麼?
答案:
MR一共有四個階段,splitmapshuffreduce在執行完map以後,能夠對map的輸出結果進行分區,
分區:這塊分片肯定到哪一個reduce去計算(彙總)
排序:在每一個分區中進行排序,默認是按照字典順序。
Group:在排序以後進行分組
1五、若是沒有定義partitioner,那麼數據在被送達reducer前是如何被分區的?
答案:
Partitioner是在map函數執行context.write()時被調用。
用戶能夠經過實現自定義的?Partitioner來控制哪一個key被分配給哪一個?Reducer。
查看源碼知道:
若是沒有定義partitioner,那麼會走默認的分區Hashpartitioner
publicclassHashPartitionerextendsPartitioner{
/**Use{@linkObject#hashCode()}topartition.*/
publicintgetPartition(Kkey,Vvalue,intnumReduceTasks){
return(key.hashCode()&Integer.MAX_VALUE)%numReduceTasks;
}
}
1六、什麼是Combiner?
答案:這是一個hadoop優化性能的步驟,它發生在map與reduce之間
目的:解決了數據傾斜的問題,減輕網絡壓力,實際上時減小了maper的輸出
源碼信息以下:
publicvoidreduce(Textkey,Iteratorvalues,
OutputCollectoroutput,Reporterreporter)
throwsIOException{
LongWritablemaxValue=null;
while(values.hasNext()){
LongWritablevalue=values.next();
if(maxValue==null){
maxValue=value;
}elseif(value.compareTo(maxValue)>0){
maxValue=value;
}
}
output.collect(key,maxValue);
}
在collect實現類中,有這樣一段方法
publicsynchronizedvoidcollect(Kkey,Vvalue)
throwsIOException{
outCounter.increment(1);
writer.append(key,value);
if((outCounter.getValue()%progressBar)==0){
progressable.progress();
}
}