海量數據處理面試題

 

 

什麼是海量數據處理? 面試

所謂海量數據處理,無非就是基於海量數據上的存儲、處理、操做。何謂海量,就是數據量太大,因此致使要麼是沒法在較短期內迅速解決,要麼是數據太大,致使沒法一次性裝入內存。 算法

那解決辦法呢?針對時間,咱們能夠採用巧妙的算法搭配合適的數據結構,如Bloom filter/Hash/bit-map/堆/數據庫或倒排索引/trie樹,針對空間,無非就一個辦法:大而化小,分而治之(hash映射),你不是說規模太大嘛,那簡單啊,就把規模大化爲規模小的,各個擊破不就完了嘛。 數據庫

至於所謂的單機及集羣問題,通俗點來說,單機就是處理裝載數據的機器有限(只要考慮cpu,內存,硬盤的數據交互),而集羣,機器有多輛,適合分佈式處理,並行計算(更多考慮節點和節點間的數據交互)。 數據結構

再者,經過本blog內的有關海量數據處理的文章:Big Data Processing,咱們已經大體知道,處理海量數據問題,無非就是:分佈式

  1. 分而治之/hash映射 + hash統計 + 堆/快速/歸併排序;
  2. 雙層桶劃分;
  3. Bloom filter/Bitmap;
  4. Trie樹/數據庫/倒排索引;
  5. 外排序;
  6. 分佈式處理之Hadoop/Mapreduce。

 

--------------------- oop

轉自spa

海量數據處理面試題.net

相關文章
相關標籤/搜索