什麼是海量數據處理? 面試
所謂海量數據處理,無非就是基於海量數據上的存儲、處理、操做。何謂海量,就是數據量太大,因此致使要麼是沒法在較短期內迅速解決,要麼是數據太大,致使沒法一次性裝入內存。 算法
那解決辦法呢?針對時間,咱們能夠採用巧妙的算法搭配合適的數據結構,如Bloom filter/Hash/bit-map/堆/數據庫或倒排索引/trie樹,針對空間,無非就一個辦法:大而化小,分而治之(hash映射),你不是說規模太大嘛,那簡單啊,就把規模大化爲規模小的,各個擊破不就完了嘛。 數據庫
至於所謂的單機及集羣問題,通俗點來說,單機就是處理裝載數據的機器有限(只要考慮cpu,內存,硬盤的數據交互),而集羣,機器有多輛,適合分佈式處理,並行計算(更多考慮節點和節點間的數據交互)。 數據結構
再者,經過本blog內的有關海量數據處理的文章:Big Data Processing,咱們已經大體知道,處理海量數據問題,無非就是:分佈式
--------------------- oop
轉自v_JULY_vspa
海量數據處理面試題.net