舉例說明以下:web
(1) Java基礎(只需JavaSE知識,不須要學習JavaEE知識)--->類、繼承、I/O、反射、泛型...... 數據庫
(2) Linux基礎(Linux的操做)---->建立文件、目錄、vi編輯器......編程
(1) Java基礎和Linux基礎編程語言
(2) Hadoop的學習:體系結構、原理、編程編輯器
a.第一階段:HDFS(分佈式文件系統)、MapReduce(是一個Java程序,用於大數據的計算)、HBase(NoSQL數據庫),這三個是Hadoop中最核心的組件。分佈式
b.第二階段:數據分析引擎:hive、pig 數據採集引擎:dqoop、flume工具
c.第三階段: web管理工具:HUE Zookeeper:實現Hadoop的HA Oozie:數據流引擎oop
(3) Spark的學習學習
a.第一階段:Scala編程語言大數據
b.第二階段:Spark Core---->基於內存、數據的計算
c.第三階段:Spark SQL----->相似Oracle中的SQL語句
d.第四階段:Spark Streaming------>進行實時計算(流式計算):例如:自來水廠
(4) Apache Storm的學習
Apache Storm相似Spark Streaming,進行實時計算的系統,實時計算的結果保存在Redis數據庫中。因此還須要學習NoSQL數據庫Redis(基於內存的數據庫)
(1)數據的存儲:分佈式文件系統(分佈式存儲)------->HDFS: Hadoop Distributed File System 來源於 GFS: Google File System
(2)數據的計算:分佈式計算
(1)GFS:沒有硬盤的,數據只能存在內存中
(2)Hadoop的安裝模式:
a. 本地模式: 1臺
b. 僞分佈模式: 1臺
c. 全分佈模式: 3臺