講解linux基礎操做,講的是在命令行下進行文件系統的操做,這是hadoop學習的基礎,後面的全部視頻都是基於linux操做的。鑑於不少學員沒有linux基礎,特增長該內容,保證零linux基礎入門。java
若是你從沒有使用過linux,別擔憂,本節內容可讓你入門。node
Linux |
|
搭建僞分佈實驗環境: 本節是最基本的課程,屬於入門級別,主要講述在linux單機上面安裝hadoop的僞分佈模式,在linux集羣上面安裝hadoop集羣。對於不熟悉linux的同窗,課程中會簡單的講解經常使用的linux命令。這兩種是必需要掌握的。經過如今的教學發現,不少同窗並不能正確的配置環境。python
搭建僞分佈實驗環境 |
|
介紹HDFS體系結構及shell、java操做方式: 本節是對hadoop核心之一——hdfs的講解。hdfs是全部hadoop操做的基礎,屬於基本的內容。對本節內容的理解直接影響之後全部課程的學習。在本節學習中,咱們會講述hdfs的體系結構,以及使用shell、java不一樣方式對hdfs的操做。在工做中,這兩種方式都很是經常使用。學會了本節內容,就能夠本身開發網盤應用了。在本節學習中,咱們不只對理論和操做進行講解,也會講解hdfs的源代碼,方便部分學員之後對hadoop源碼進行修改。最後,還要講解hadoop的RPC機制,這是hadoop運行的基礎,經過該節學習,咱們就能夠明白hadoop是怎麼明白的了,沒必要糊塗了,本節內容特別重要。mysql
介紹HDFS體系結構及 shell、java操做方式 |
|
介紹MapReduce體系結構及各類算法(1): 本節開始對hadoop核心之一——mapreduce的講解。mapreduce是hadoop的核心,是之後各類框架運行的基礎,這是必須掌握的。在本次講解中,掌握mapreduce執行的詳細過程,以單詞計數爲例,講解mapreduce的詳細執行過程。還講解hadoop的序列化機制和數據類型,並使用自定義類型實現電信日誌信息的統計。linux
介紹MapReduce體 繫結構及各類算法(1) |
|
介紹MapReduce體系結構及各類算法(2): 本節繼續講解mapreduce,會把舊api的用法、計數器、combiner、partitioner、排序算法、分組算法等所有講解完畢。經過這兩次課程學習,學員能夠把整個mapreduce的執行細節搞清楚,把各個可擴展點都搞明白。本節內容在目前市面可見的圖書、視頻中尚未發現如此全面的哪。程序員
介紹MapReduce體 繫結構及各類算法(2) |
|
本節內容與hadoop關係不大,只是在hbase集羣安裝時纔用到。可是,zookeeper在分佈式項目中應用較多。web
zookeeper |
|
hbase是個好東西,在之後工做中會常常遇到,特別是電信、銀行、保險等行業。本節講解hbase的僞分佈和集羣的安裝,講解基本理論和各類操做。咱們經過對hbase原理的講解,讓你們明白爲何hbase會這麼適合大數據的實時查詢。最後講解hbase如何設計表結構,這是hbase優化的重點。面試
HBase |
|
由cloudera公司開發的集羣web管理工具cloudera manager(簡稱CM)和CDH目前在企業中使用的比重很大,掌握CM+CDH集羣管理和使用 不只簡化了集羣安裝、配置、調優等工做,並且對任務監控、集羣預警、快速定位問題都有很大的幫助。redis
CM+CDH集羣管理 |
|
在《hadoop1零基礎拿高薪》課程中咱們涉及了Hive框架內容,不過內容偏少,做爲入門講解能夠,可是在工做中還會遇到不少課程中沒有的。本課程的目的就是把Hive框架的邊邊角角都涉獵到,重點講解Hive的數據庫管理、數據表管理、錶鏈接、查詢優化、如何設計Hive表結構。這都是工做中最急需的內容,是工做中的重點。算法
Hive的概述、安裝 與基本操做 |
|
Hive支持的數據類型 |
|
Hive數據的管理 |
|
Hive的查詢 |
|
Hive的函數 |
|
Hive的文件格式 |
|
Hive的性能調優 |
|
項目實戰 |
|
雜記 |
|
sqoop適用於在關係數據庫與hdfs之間進行雙向數據轉換的,在企業中,很是經常使用。
Sqoop |
|
Flume是cloudera公佈的分佈式日誌收集系統,是用來把各個的服務器中數據收集,統一提交到hdfs或者其餘目的地,是hadoop存儲數據的來源,企業中很是流行。
Flume |
|
Kafka是消息系統,相似於ActiveMQ、RabbitMQ,可是效率更高。
Kafka |
|
Storm是專門用於解決實時計算的,與hadoop框架搭配使用。本課程講解Storm的基礎結構、理論體系,如何部署Storm集羣,如何進行本地開發和分佈式開發。經過本課程,你們能夠進入到Storm殿堂,看各類Storm技術文章再也不難,進行Storm開發也再也不畏懼。
Storm |
|
redis是一款高性能的基於內存的鍵值數據庫,在互聯網公司中應用很普遍。
Redis |
|
Scala是學習spark的必備基礎語言,必需要掌握的。
Scala |
|
Spark是一款高性能的分佈式計算框架,傳言比MapReduce計算快100倍,本課程爲你揭祕。
Spark |
|
oozie是Hadoop生態系統中比較重要的框架,在系統中扮演的角色是工做流引擎服務器,用於運行Hadoop Map/Reduce任務工做流(包括MR、Hive、Pig、Sqoop等),企業中多因爲整個項目流程任務調度。
Oozie |
|
Impala是Cloudera公司參照 Google Dreme系統進行設計並主導開發的新型查詢系統,它提供複雜SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。
Impala |
|
Kettle是一款國外開源的ETL工具,純java編寫,能夠在Window、Linux、Unix上運行,數據抽取高效穩定。ETL是指數據的抽取(extract)、轉換(transform)、加載(load)至目的端。
Kettle |
|
Ganglia是一個對於數以萬計的節點的各個指標的圖表監控框架,提供完整的一套圖形監控界面,支持C、C++、python擴展自定義指標和用戶視圖。
Ganglia |
|
Tachyon是一個開源分佈式內存存儲系統,擁有高性能、高容錯等優勢。並具備類Java的文件API、插件式的底層文件系統、兼容Hadoop MapReduce和 Apache Spark 等特徵。Tachyon可以爲集羣框架(如Spark、MapReduce等)提供內存級速度的跨集羣文件共享服務,官方號稱最高比HDFS吞吐量高300倍。
Tachyon |
|
Solr |
|
elasticsearch |
|
多線程 |
|
Java虛擬機優化 |
|
Python |
|
Mahout是數據挖掘和機器學習領域的利器,本課程是帶領你們進入到這個領域中。課程內容包括Mahout體系結構介紹、Mahout如何在推薦、分類、聚類領域中使用。
Mahout |
|
xx論壇日誌分析(錄播): 該項目的數據來自於黑馬程序員(http://edu.csdn.net/)論壇的日誌,該項目是爲本課程量身定作的,很是適合咱們hadoop課程學習。有的同窗以爲應該介紹更多項目,其實作過幾個項目後,就會發現項目的思路是相同的,只是業務不一樣而已。你們寫過這個項目後,就對hadoop的各個框架在項目中是如何使用的,有個比較清晰的認識,對hadoop與javaEE結合有個比較清晰的認識了。
注:不少學員進入公司後發現,公司中大部分hadoop日誌分析項目,都是該項目的開發過程,千真萬確!
xx論壇日誌分析(錄播) |
|
互聯網電商爬蟲項目: 該項目使用分佈式爬蟲爬取互聯網各大電商網站商品數據,前臺實現對數據的快速精準查詢和商品對比。
互聯網電商爬蟲 |
|
高頻數據實時流處理項目: 該項目實現對業務數據系統的高頻日誌數據進行實時收集和業務處理。
高頻數據實時流處理 |
|
國內排名前50名的某網站互聯網日誌分析項目: 經過大數據工具將互聯網中的日誌的採集、清洗、分析統計出常見的互聯網指標;開發各類維度UV的分佈報表、各個指標每日、月指標報表,用於對產品作出正確的決策,數據的正確性校對問題,臨時性的圖表的開發。
某網站互聯網日誌分析 |
|
移動業務感知項目: 移動業務感知系統主要是利用hadoop集羣強大的計算能力對移動的大批量離線話單數據進行分析,統計移動用戶使用移動業務(流量套餐、話費套餐、鈴聲套餐等)狀況,達到感知用戶行爲和使用習慣,肯定移動業務推廣走向的一套系統。