大數據第一講

時間 2019-12-11

標籤數據第一简体版

原文原文鏈接

第一講：大數據基礎入門數據庫

第一節：爲何要學習大數據
一、目的：很好工做
二、對比：Java開發和大數據開發編程

第二節：什麼是大數據？
舉例：
一、商品推薦：問題：（1）大量的訂單如何存儲？（2）大量的訂單如何計算？
二、天氣預報：問題：（1）大量的天氣數據如何存儲？（2）大量的天氣數據如何計算？

什麼是大數據，本質？
（1）數據的存儲：分佈式文件系統（分佈式存儲）
（2）數據的計算：分佈式計算編程語言

第三節：Java和大數據是什麼關係？
一、Hadoop：基於Java語言開發
二、Spark：基於Scala語言，Scala基於Java語言編輯器

第四節：學習大數據須要的基礎和路線
一、學習大數據須要的基礎：Java基礎（JavaSE）---> 類、繼承、I/O、反射、泛型*****
Linux基礎（Linux的操做） ---> 建立文件、目錄、vi編輯器***

二、學習路線：
（1）Java基礎和Linux基礎
（2）Hadoop的學習：體系結構、原理、編程
（*）第一階段：HDFS、MapReduce、HBase（NoSQL數據庫）
（*）第二階段：數據分析引擎 ---> Hive、Pig
數據採集引擎 ---> Sqoop、Flume
（*）第三階段：HUE：Web管理工具
ZooKeeper：實現Hadoop的HA
Oozie：工做流引擎
（3）Spark的學習
（*）第一個階段：Scala編程語言
（*）第二個階段：Spark Core-----> 基於內存，數據的計算
（*）第三個階段：Spark SQL -----> 相似Oracle中的SQL語句
（*）第四個階段：Spark Streaming ---> 進行實時計算（流式計算）：好比：自來水廠

（4）Apache Storm：相似Spark Streaming ---> 進行實時計算（流式計算）：好比：自來水廠
（*）NoSQL：Redis基於內存的數據庫
分佈式

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。