《Hadoop權威指南·大數據的存儲與分析》閱讀筆記(未讀完)

Hadoop基礎知識:1.MapReduce 執行引擎redis

                          2.HDFS框架

                          3.Yarn分佈式

          4.Hadoop的I/O操做oop

Hadoop相關開源項目:1. Avro   數據格式大數據

            2.Parquetspa

                                3.Flume  數據攝取對象

            4.Sqoop內存

                                5.Pig   數據處理spark

                                6.Hive集羣

                                7.Cruch

                                8.Spark 

                                9.Hbase  存儲

                                10.Zookeeper  協做

Haoop相關開源項目:

8. Spark 大數據處理的集羣計算框架

spark沒有使用MapReduce做爲執行引擎,而是使用自身的分佈式運行環境在集羣上執行工做

spark內最核心的概念是RDD,彈性分佈式數據集,集羣中跨多個機器分區存儲的只讀的對象集合(彈性:能夠經過安排計算從新獲得丟失的分區)

spark有延遲執行的機制,就是點那個加載RDD或者轉換的時候並不會當即觸發任何數據處理的操做,只不過是建立了一個計算的計劃,只有當對RDD執行某個動做的時候纔會真正執行。因此spark中的job與MapReduce中的job不一樣,Spark中的job是由多個階段組成的一個有向無環圖,每一個階段都至關於MapReduce中的Map或者Reduce,這些階段會被分佈在Spark內並行執行。

彈性分佈式數據集RDD:

建立:來自內存中的對象集合;使用外部存儲器中的數據集;現有RDD的轉換

redis的持久化:

相關文章
相關標籤/搜索