hadoop生態系統介紹

1.hadoop生態系統主流核心技術:
Zookeeper、HDFS、MapReduce、HBase、Hive、Pig、Spark數據庫

2.hadoop2.0與hadoop1.0相比的主要提高點:
Hadoop 1.0指的是版本爲Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,內核主要由HDFS和MapReduce兩個系統組成,其中,MapReduce是一個離線處理框架,由編程模型(新舊API)、運行時環境(JobTracker和TaskTracker)和數據處理引擎(MapTask和ReduceTask)三部分組成。
Hadoop 2.0指的是版本爲Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,內核主要由HDFS、MapReduce和YARN三個系統組成,其中,YARN是一個資源管理系統,負責集羣資源管理和調度,MapReduce則是運行在YARN上離線處理框架,它與Hadoop 1.0中的MapReduce在編程模型(新舊API)和數據處理引擎(MapTask和ReduceTask)兩個方面是相同的。相對於1.0,2.0引入了HDFS Federation用於解決DataNode過多形成NameNode資源不足的問題,同時還實現了HA以及使用Yarn來細化資源與任務的管理。
3.大數據(hadoop)與關係型數據庫的優缺點:
hadoop的hdfs支持海量數據量存儲,mapreduce支持對海量數據的分佈式處理
關係型數據庫雖然能夠搭建集羣,可是當數據量達到必定限度以後查詢處理速度會變得很慢,且對機器性能要求很高。
其實這兩個東西不是同類,hadoop是一個分佈式雲處理架構,傾向於數據計算,而關係型數據庫傾向於數據存儲。
   3.1 Hadoop的優勢:
   可擴展:存儲與計算上均可擴展;
   經濟:Hadoop是基於Apache的開源項目,可運行在普通PC上;
   可靠:基於分佈式的存儲與計算;
   高效:基於分佈式的計算可大大提升效率;
   同時可支持結構化和非結構化的數據;
  3.2 Hadoop缺點:
   不支持事務
   性能優化須要必定的探索過程編程

  3.3 關係型數據庫優勢:
  成熟穩定;
  事務型更新操做支持性好;
  3.4 缺點:
  軟硬件投資高;
  不支持非結構化數據;
 性能優化

相關文章
相關標籤/搜索