大數據基礎

一. 大數據基礎入門:Hadoop的背景起源之一

1.爲何要學習大數據

  • 目的:會有很好的工做
  • 對比:Java與大數據對比,大數據薪水比較高 

2.什麼是大數據

  舉例說明以下:web

  • 商品推薦 (用大數據統計購物網站商品的銷量,能夠清楚哪些商品賣的好,哪些商品賣的很差)。  大數據處理的問題:(1)大量訂單如何存儲?   (2)大量訂單如何計算?
  • 天氣預報 (可統計過去N年的數據) ,同上用大數據進行對天氣數據的存儲和計算。
  • 根據以上兩條案例可知大數據的本質:
  • (1) 數據的存儲:分佈式文件系統(分佈式存儲)      (2)數據的計算:分佈式計算

3.Java和大數據是什麼關係

  • Hadoop:基於Java語言開發
  • Spark:基於Scala語言,Scala基於Java語言  

4.學習大數據須要的基礎和路線

  • 學習大數據須要的基礎:

          (1) Java基礎(只需JavaSE知識,不須要學習JavaEE知識)--->類、繼承、I/O、反射、泛型...... 數據庫

          (2) Linux基礎(Linux的操做)---->建立文件、目錄、vi編輯器......編程

  •  學習路線:

     (1) Java基礎和Linux基礎編程語言

          (2) Hadoop的學習:體系結構、原理、編程編輯器

               a.第一階段:HDFS(分佈式文件系統)、MapReduce(是一個Java程序,用於大數據的計算)、HBase(NoSQL數據庫),這三個是Hadoop中最核心的組件。分佈式

               b.第二階段:數據分析引擎:hive、pig          數據採集引擎:dqoop、flume工具

               c.第三階段: web管理工具:HUE               Zookeeper:實現Hadoop的HA                Oozie:數據流引擎oop

          (3) Spark的學習學習

              a.第一階段:Scala編程語言大數據

     b.第二階段:Spark  Core---->基於內存、數據的計算

     c.第三階段:Spark  SQL----->相似Oracle中的SQL語句

     d.第四階段:Spark Streaming------>進行實時計算(流式計算):例如:自來水廠

       (4) Apache Storm的學習

                Apache Storm相似Spark Streaming,進行實時計算的系統,實時計算的結果保存在Redis數據庫中。因此還須要學習NoSQL數據庫Redis(基於內存的數據庫)

二. 大數據基礎入門:Hadoop的背景起源之二

1. 什麼是大數據、本質?      

     (1)數據的存儲:分佈式文件系統(分佈式存儲)------->HDFS:     Hadoop Distributed File System 來源於 GFS:  Google File System

     (2)數據的計算:分佈式計算

2. 如何解決大數據的存儲?

     (1)GFS:沒有硬盤的,數據只能存在內存中

     (2)Hadoop的安裝模式:

        a. 本地模式:     1臺

        b. 僞分佈模式: 1臺

        c. 全分佈模式:  3臺

  

相關文章
相關標籤/搜索