hadoop生態系統介紹

時間 2019-12-13

原文原文鏈接

1.hadoop生態系統主流核心技術：
Zookeeper、HDFS、MapReduce、HBase、Hive、Pig、Spark數據庫

2.hadoop2.0與hadoop1.0相比的主要提高點：
Hadoop 1.0指的是版本爲Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop，內核主要由HDFS和MapReduce兩個系統組成，其中，MapReduce是一個離線處理框架，由編程模型（新舊API）、運行時環境（JobTracker和TaskTracker）和數據處理引擎（MapTask和ReduceTask）三部分組成。
Hadoop 2.0指的是版本爲Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop，內核主要由HDFS、MapReduce和YARN三個系統組成，其中，YARN是一個資源管理系統，負責集羣資源管理和調度，MapReduce則是運行在YARN上離線處理框架，它與Hadoop 1.0中的MapReduce在編程模型（新舊API）和數據處理引擎（MapTask和ReduceTask）兩個方面是相同的。相對於1.0，2.0引入了HDFS Federation用於解決DataNode過多形成NameNode資源不足的問題，同時還實現了HA以及使用Yarn來細化資源與任務的管理。
3.大數據（hadoop）與關係型數據庫的優缺點：
hadoop的hdfs支持海量數據量存儲，mapreduce支持對海量數據的分佈式處理
關係型數據庫雖然能夠搭建集羣，可是當數據量達到必定限度以後查詢處理速度會變得很慢，且對機器性能要求很高。
其實這兩個東西不是同類，hadoop是一個分佈式雲處理架構，傾向於數據計算，而關係型數據庫傾向於數據存儲。
3.1 Hadoop的優勢：
可擴展：存儲與計算上均可擴展；
經濟：Hadoop是基於Apache的開源項目，可運行在普通PC上；
可靠：基於分佈式的存儲與計算；
高效：基於分佈式的計算可大大提升效率；
同時可支持結構化和非結構化的數據；
3.2 Hadoop缺點：
不支持事務
性能優化須要必定的探索過程編程

3.3 關係型數據庫優勢：
成熟穩定；
事務型更新操做支持性好；
3.4 缺點：
軟硬件投資高；
不支持非結構化數據；
性能優化