Hadoop基礎知識:1.MapReduce 執行引擎redis
2.HDFS框架
3.Yarn分佈式
4.Hadoop的I/O操做oop
Hadoop相關開源項目:1. Avro 數據格式大數據
2.Parquetspa
3.Flume 數據攝取對象
4.Sqoop內存
5.Pig 數據處理spark
6.Hive集羣
7.Cruch
8.Spark
9.Hbase 存儲
10.Zookeeper 協做
Haoop相關開源項目:
8. Spark 大數據處理的集羣計算框架
spark沒有使用MapReduce做爲執行引擎,而是使用自身的分佈式運行環境在集羣上執行工做
spark內最核心的概念是RDD,彈性分佈式數據集,集羣中跨多個機器分區存儲的只讀的對象集合(彈性:能夠經過安排計算從新獲得丟失的分區)
spark有延遲執行的機制,就是點那個加載RDD或者轉換的時候並不會當即觸發任何數據處理的操做,只不過是建立了一個計算的計劃,只有當對RDD執行某個動做的時候纔會真正執行。因此spark中的job與MapReduce中的job不一樣,Spark中的job是由多個階段組成的一個有向無環圖,每一個階段都至關於MapReduce中的Map或者Reduce,這些階段會被分佈在Spark內並行執行。
彈性分佈式數據集RDD:
建立:來自內存中的對象集合;使用外部存儲器中的數據集;現有RDD的轉換
redis的持久化: