超級乾貨 :一文讀懂大數據處理框架

說起大數據處理啊,一切都起源於Google公司的經典論文。在當時(2000年左右),由於網頁數量急劇增加,Google公司內部平時要編寫很多的程序來處理大量的原始數據:爬蟲爬到的網頁、網頁請求日誌;計算各種類型的派生數據:倒排索引、網頁的各種圖結構等等。這些計算在概念上很容易理解,但由於輸入數據量很大,單機難以處理。所以需要利用分佈式的方式完成計算,並且需要考慮如何進行並行計算、分配數據和處理失敗
相關文章
相關標籤/搜索