打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。由於企業
中的項目基本上都是使用Linux環境下搭建或部署的。前端
1)Linux系統概述 |
6)用戶和用戶組管理 |
大數據的基石:其一,分佈式文件系統HDFS用於存儲海量數據,不管是Hive、HBase或者Spark數據存儲在其上面;其二是分佈式資源管理框架
YARN,是Hadoop 雲操做系統(也稱數據系統),管理集羣資源和分佈式數據處理框架MapReduce、Spark應用的資源調度與監控;分佈式並行計算框架
MapReduce目前是海量數據並行處理的一個最經常使用的框架。Hadoop 2.x的編譯、環境搭建、HDFS Shell使用,YARN 集羣資源管理與任務監控,MapReduce編
程,分佈式集羣的部署管理(包括高可用性HA)必需要掌握的。nginx
1、初識Hadoop 2.x 1)大數據應用發展、前景 |
2、深刻Hadoop 2.x 1)HDFS文件系統的架構、功能、設計 |
3、高級Hadoop 2.x 1)分佈式部署Hadoop 2.x |
hive是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行
運行。其優勢是學習成本低,能夠通類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。docker
1、Hive 初識入門 1)Hive功能、體系結構、使用場景 |
2、Hive深刻使用 1)Hive中的內部表、外部表、分區表 |
3、Hive高級進階 1)Hive數據的存儲和壓縮 |
4、結合實際案例分析 1)依據業務設計表 |
Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,能夠將一個關係型數據庫(例如 : MySQL
,Oracle ,Postgres等)中的數據導進到關係型數據庫中。Sqoop項目開始於2009年,最先是做爲Hadoop的一個第三方模塊存在,後來爲了讓使用者可以快速部
署,也爲了讓開發人員可以更快速的迭代開發,Sqoop獨立成爲一個Apache項目。
1、數據轉換工具Sqoop 1)Sqoop功能、使用原則 |
2、文件收集框架Flume 1)Flume 設計架構、原理(三大組件) |
3、Oozie功能、安裝部署 1)使用Oozie調度MapReduce Job和HiveQL |
Hue是一個開源的Apache Hadoop UI系統,最先是由Cloudera Desktop演化而來,由Cloudera貢獻給開源社區,它是基於Python Web框架Django實現的。通
過使用Hue咱們能夠在瀏覽器端的Web控制檯上與Hadoop集羣進行交互來分析處理數據,例如操做HDFS上的數據,運行MapReduce Job等等。
1)Hue架構、功能、編譯 |
4)Hue集成Hive、DataBase |
HBase是一個分佈式的、面向列的開源數據庫,該技術來源於 Fay Chang 所撰寫的Google論文「Bigtable:一個結構化數據的分佈式存儲系統」。HBase在
Hadoop之上提供了相似於Bigtable的能力,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大
規模結構化存儲集羣
1、HBase初窺使用 1)HBase是什麼、發展、與RDBMS相比優點、企業使用 |
2、HBase 深刻使用 1)HBase 數據存儲模型 |
3、HBase 高級使用 1)如何設計表、表的預分區(依據具體業務分析講解) |
4、進行分析 1)依據需求設計表、建立表、預分區 |
Storm是Twitter開源的分佈式實時大數據處理框架,被業界稱爲實時版Hadoop。 隨着愈來愈多的場景對Hadoop的MapReduce高延遲沒法容忍,好比網站統計、
推薦系統、預警系統、金融系統(高頻交易、股票)等等, 大數據實時處理解決方案(流計算)的應用日趨普遍,目前已經是分佈式技術領域最新爆發點,而Storm更是
流計算技術中的佼佼者和主流。 按照storm做者的說法,Storm對於實時計算的意義相似於Hadoop對於批處理的意義。Hadoop提供了map、reduce原語,使我
們的批處理程序變得簡單和高效。 一樣,Storm也爲實時計算提供了一些簡單高效的原語,並且Storm的Trident是基於Storm原語更高級的抽象框架,相似於基於
Hadoop的Pig框架, 讓開發更加便利和高效。本課程會深刻、全面的講解Storm,並穿插企業場景實戰講述Storm的運用。 淘寶雙11的大屏幕實時監控效果衝擊
了整個IT界,業界爲之驚歎的同時更是引發對該技術的探索。 能夠本身開發升級版的「淘寶雙11」?
1)Storm簡介和課程介紹 |
15)Storm事務案例實戰之 ITransactionalSpout |
爲何要學習Scala?源於Spark的流行,Spark是當前最流行的開源大數據內存計算框架,採用Scala語言實現,各大公司都在使用Spark:IBM宣佈承諾大力推動
Apache Spark項目,並稱該項目爲:在以數據爲主導的,將來十年最爲重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺,
Scala具備數據處理的自然優點,Scala是將來大數據處理的主流語言
1)-Spark的前世此生 |
11)-Scala編程詳解:Map與Tuple |
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具備的優勢。啓用了內存分佈數據集,除
了可以提供交互式查詢外,它還能夠優化迭代工做負載。Spark Streaming: 構建在Spark上處理Stream數據的框架,基本的原理是將Stream數據分紅小的時間片段
(幾秒),以相似batch批量處理的方式來處理這小部分數據
1)Spark 初識入門 |
10)案例分析 |
1)Scala編程、Hadoop與Spark集羣搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優 |
完成大數據相關企業場景與解決方案的剖析應用及結合一個電子商務平臺進行實戰分析,主要包括有: 企業大數據平臺概述、搭建企業
大數據平臺、真實服務器手把手環境部署、使用CM 5.3.x管理CDH 5.3.x集羣
1)企業大數據平臺概述 |
9)真實服務器手把手環境部署 |
離線數據分析平臺是一種利用hadoop集羣開發工具的一種方式,主要做用是幫助公司對網站的應用有一個比較好的瞭解。尤爲是在電商、旅遊、銀行、證券、遊戲
等領域有很是普遍,由於這些領域對數據和用戶的特性把握要求比較高,因此對於離線數據的分析就有比較高的要求了。 本課程講師本人以前在遊戲、旅遊等公司
專門從事離線數據分析平臺的搭建和開發等,經過此項目將全部大數據內容貫穿,並先後展現!
1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線數據分析,SpringMVC,Highchat |
1)全面掌握Storm完整項目開發思路和架構設計 |
6)靈活運用HBase做爲外部存儲 |
本項目使用了Spark技術生態棧中最經常使用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。實現了包括用
戶訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、 廣告點擊流量實時統計4個業務模塊。過合理的將實際業務模塊進行技術整合與改造,
該項目徹底涵蓋了Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎全部的功能點、知識點以及性能優化點。 僅一個項目,便可全面掌握Spark
技術在實際項目中如何實現各類類型的業務需求!在項目中,重點講解了實際企業項目中積累下來的寶貴的性能調優 、troubleshooting以及數據傾斜解決方案等知識和技術
1)真實還原完整的企業級大數據項目開發流程: |
2)現場Excel手工畫圖與寫筆記:全部複雜業務流程、架構原理 |
基於PyMC語言以及一系列經常使用的Python數據分析框架,如NumPy、SciPy和Matplotlib,經過幾率編程的方式,講解了貝葉斯推斷的原理和實現方法。
該方法經常能夠在避免引入大量數學分析的前提下,有效地解決問題。課程中使用的案例每每是工做中遇到的實際問題,有趣而且實用。迴歸等算法有較爲深刻的瞭解,以Python編程語言爲基礎,在不涉及大量數學模型與複雜編程知識的前提下,熟悉而且掌握當下最流行的機器學習算法,如迴歸、決策樹、SVM等,並經過代碼實例來 展現所討論的算法的實際應用。
1)Mahout、Spark MLlib概述 |
8)隨機森林及Mahout、SparkMllib案例 |
開發推薦系統的方法,尤爲是許多經典算法,重點探討如何衡量推薦系統的有效性。課程內容分爲基本概念和進展兩部分:前者涉及協同推薦、基於
內容的推薦、基於知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和實例分析;後者包括針對推薦系統的攻擊、在線消費決策、推薦系統和下一代互聯網以及普適環境中的推薦
1)協同過濾推薦 |
5)推薦系統的解釋 |
聯網+、大數據、網絡爬蟲、搜索引擎等等這些概念,現在可謂煊赫一時
1)Elasticsearch概念 |
5)Elasticsearch索引和Mapping |
隨着互聯網的發展,高併發、大數據量的網站要求愈來愈高。而這些高要求都是基礎的技術和細節組合而成的。
隨着Web技術的普及,Internet上的各種網站第天都在雪崩式增加。但這些網站大多在性能上沒作過多考慮。固然,它們狀況不一樣。有的是Web技術自己的緣由(主
要是程序代碼問題),還有就是因爲Web服務器未進行優化。無論是哪一種狀況,一但用戶量在短期內激增,網站就會明顯變慢,甚至拒絕放訪問。要想有效地解決
這些問題,就只有依靠不一樣的優化技術。本課程就是主要用於來解決大型網站性能問題,可以承受大數據、高併發。主要涉及 技術有:nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術
Tableau的數據鏈接與編輯、圖形編輯與展現功能,包括數據鏈接與管理、基礎與高級圖形分析、地圖分析、高級數據操做、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。
1)什麼是數據可視化? |
12)工做表 |
對數據可視化技術有一個全面、系統、深刻的瞭解,最終達到可以利用Echarts圖表結合後端數據進行前端可視化報表展現的目的,
1)數據可視化概述 |
11)Echarts3.x與Echarts2.x的區別 |
Vue.js是一套構建用戶界面的輕量級MVVM框架,與其餘重量級框架不一樣的是, Vue.js 的核心庫只關注視圖層,而且很是容易學習,很容易與其它前端技術或已有的項目整合。 本課程主要分兩部分講解:1.掌握Vue.js設計規範的語法;
1)Vue.js簡介和MVC、MVP以及MVVM架構 |
18)事件修飾符19)表單處理20)自定義組件21)過渡效果22)動畫效果23)過渡和動畫的回調函數24)路由技術25)混合26)Render函數27)單文件工程28)單元測試29)服務器端渲染30)生產環境部署31)動態評分案例32)圖片輪播案例33)OLTP系統的管理界面34)聊天室案例 |