hadoop系列之基礎系列

一、Hadoop基礎 1、分佈式概念         通過爬蟲-->爬到網頁存儲-->查找關鍵字         一臺機器存儲是有限的         Google採用多臺機器,使用分佈式的概念去存儲處理           【關於計算】10TB數據,一臺機器無法處理,可以用10臺機器處理         每臺機器可以處理1TB           Mapreduce額核心思想:分而治之     
相關文章
相關標籤/搜索