大數據小計

大數據基礎部分第一節

寫在前邊的話

大數據是個啥子嘛,廢話很少說,拿來百度百科的解釋:大數據,指沒法在必定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是須要新處理模式才能具備更強的決策力、洞察發現力和流程優化能力的海量、高增加率和多樣化的信息資產。java


概覽目錄
  • Linux基礎
  • Hadoop的背景知識與起源
  • 搭建Hadoop環境
  • Apache Hadoop的體系結構
  • HDFS
  • MapReduce
  • MapReduce編程案例
  • NoSQL數據庫之:HBase
  • 數據分析引擎之:Hive
  • 數據分析引擎之: Pig
  • 數據採集引擎:Sqoop和Flume
  • 集成管理工具:HUE
  • Hadoop HA的實現和HDFS的聯盟
  • NoSQL數據庫之:Redis
  • 實時處理框架:Apache Storm
本次的實驗環境:
  • linux操做系統
  • Hadoop的介質
  • Spark的介質
學習路線和課程簡介:
  • 基礎:java基礎(java SE):變量,類型,循環,面向對象,I/O,反射,泛型,JDBC
    Linux基礎
    大數據: 數據的處理 (1)離線計算 (2)實時計算
  • Hadoop
    (1)數據存儲:HDFS
    (2)數據計算:MapReduce(java程序) ---> 離線計算
    (3)其它組件(生態圈):HBase,Hive,Pig,Flume,Sqoop ~~~~等等
  • Storm:實時計算框架(java語言)
    (1)NoSQL:Redis內存數據庫
    (2)Storm中的內容
  • Spark
    (1)Scala編程語言:能夠當作是java的升級
    (2)Spark Core : 整個Spark的核心 ---> 至關於MapReduce
    (3)Spark SQL
    (4)Spark Streaming:實時計算框架
  • 項目實戰linux

本次課程全部的介質我已保存到網盤,能夠隨時 下載
Linux的實驗環境
  • 版本:RedHat 7.4 64位 自帶netcat服務器(測試:Spark Streming)
  • VM:12
  • 類型:RedHat Linux 7 64位
  • 網卡:僅主機模式
  • 一共5臺虛擬機
    192.168.235.11 bigdata11 (ip地址根據本身網絡狀況來定,命名方式是爲了便於記憶)
    192.168.235.12 bigdata12
    192.168.235.13 bigdata13
    192.168.235.14 bigdata14
    192.168.235.14 bigdata15
配置Linux和Linux的目錄結構
- 對Linux瞭解
- 關閉防火牆
    查看防火牆狀態:systemctl status firewalld.service
    關閉防火牆:systemctl stop firewalld.service
    禁用防火牆(永久):systemctl disable firewalld.service
- 設置主機名(配置文件) /etc/hosts
    vi /etc/hosts  注:vi編輯器不會用的能夠百度下,相似於我們windows下的記事本
    末尾添加一行
    192.168.235.11 bigdata11   注:ip以及名字根據本身的狀況而定
文件目錄操做命令 (此項重點掌握)
我們來個約定:
    mkdir /root/tools     --->全部的安裝包
    mkdir /root/training  --->安裝目錄
Linux的權限管理
這部分須要瞭解
安裝經常使用軟件:首先去上面的網盤裏找到一個winSCP.exe的軟件安裝到本身電腦上(至關於FTP上傳文件到linux裏),而後鏈接到linux,把網盤裏那個jdk-8xxxxxxxx-64.tar.gz拖到我們約定好的/root/tools下。先把jdk裝了吧。
  • 切換到tools文件夾下執行 tar -zxvf jdk-8xxxxx-64.tar.gz -C ~/training/ (意思就是安裝到約定好的training目錄下)
  • 設置環境變量
    vi ~/.bash_profile
    文件末尾添加如下內容
    JAVA_HOME=/root/training/jdk1.8.0_144
    export JAVA_HOME

    PATH=$JAVA_HOME/bin:$PATH
    export PATH
    而後保存退出後 java -version 檢查是否配置生效數據庫

Linux的權限管理
  • 這部份內容須要掌握
相關文章
相關標籤/搜索