Hadoop學習第一篇---hadoop背景介紹及基本組件簡介

Hadoop產生的背景 HADOOP最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨着抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。 2003年開始谷歌陸續發表的三篇論文爲該問題提供了可行的解決方案。 ——分佈式文件系統(GFS),可用於處理海量網頁的存儲 ——分佈式計算框架MAPREDUCE,可用於
相關文章
相關標籤/搜索