超級乾貨 :一文讀懂大數據處理框架

提及大數據處理啊,一切都起源於Google公司的經典論文。在當時(2000年左右),因爲網頁數量急劇增長,Google公司內部平時要編寫不少的程序來處理大量的原始數據:爬蟲爬到的網頁、網頁請求日誌;計算各類類型的派生數據:倒排索引、網頁的各類圖結構等等。這些計算在概念上很容易理解,但因爲輸入數據量很大,單機難以處理。因此須要利用分佈式的方式完成計算,而且須要考慮如何進行並行計算、分配數據和處理失敗
相關文章
相關標籤/搜索