Hadoop應用開發實戰(flume應用開發、搜索引擎算法、Pipes、集羣、PageRank算法)

Hadoop是2013年最熱門的技術之一,經過北風網robby老師<深刻淺出Hadoop實戰開發>、<Hadoop應用開發實戰>兩套課程的學習,普通Java開發人員能夠在最快的時間內提高工資超過15000.成爲一位徹底精通Hadoop應用開發的高端人才。node

 

Hadoop是什麼,爲何要學習Hadoop?linux


    Hadoop是一個分佈式系統基礎架構,由Apache基金會開發。用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有着高容錯性的特色,而且設計用來部署在低廉的(low-cost)硬件上。並且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣能夠流的形式訪問(streaming access)文件系統中的數據。
   Hadoop 是一個可以對大量數據進行分佈式處理的軟件框架。可是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,由於它假設計算元素和存儲會失敗,所以它維護多個工做數據副本,確保可以針對失敗的節點從新分佈處理。Hadoop 是高效的,由於它以並行的方式工做,經過並行處理加快處理速度。Hadoop 仍是可伸縮的,可以處理 PB 級數據。此外,Hadoop 依賴於社區服務器,所以它的成本比較低,任何人均可以使用。
   Hadoop帶有用Java 語言編寫的框架,所以運行在 Linux 生產平臺上是很是理想的。本課程的講解是採用linux平臺進行模擬講解,徹底基於真實場景進行模擬現實算法

 

亮點一:技術先進,經典應用數據庫

 


     新的課程採用了全新平臺:Oracle VirtualBox + CentOs + 最新的Hadoop 1.x穩定版本,提供了更穩定,安全的平臺,更加貼近企業級應用的真實環境。課程完整,詳細的介紹並實現了多個Hadoop經典應用:搜索引擎自動推薦,好友智能推薦,最短路徑算法,PageRank。他們表明了當前最成功,應用範圍最廣的Hadoop應用案例,特別是PageRank,更是Google賴以發家的法寶,直到現在,仍然是Google搜索引擎最爲重要的技術。經過這些案例,對於學習如何開發成功的Hadoop應用有極大的幫助。
 安全

亮點二:內容實用,全面深刻服務器

 

     非Java的MapReduce應用是Hadoop重要內容之一,Streaming和Pipes是將現有應用移植到Hadoop平臺的重要技術。另外,Hadoop提供了海量數據的處理方案,可是如何進行原始數據收集,Apache Flume給出了答案,新的Apache Flume的解決方案,更加簡單,實用和高效。課程還詳細介紹瞭如何藉助Hadoop提供的工具,對集羣中的節點進行有效的管理,這些都是一個Hadoop管理人員必備知識。架構

 

亮點三:講師豐富的電信集團雲平臺運做經驗框架

 

講師robby擁有豐富的電信集團工做經驗,目前負責雲平臺的各方面工做,並擁有多年的企業內部培訓經驗。講課內容徹底貼近企業需求,毫不紙上談兵。分佈式

 


第1章節: (4課時)工具

 

搜索引擎自動推薦(4課時)


> 新平臺搭建: 使用VirtualBox建立CentOs虛擬機,並使用RPM的方式安裝和使用Hadoop


> 內存數據庫Redis的安裝和基本使用


> 搜索引擎自動推薦算法講解


> 使用JqueryUI + Ajax + Redis搭建先後臺框架


> 使用Map Reduce實現數據統計算法


> 定製Map Reduce輸出,將數據直接寫入Redis內存數據庫


第2章節: (3課時)

 

好友智能推薦 (3課時)


> 應用背景和算法詳細講解


> Web框架搭建Struts2 + Redis


> 使用Map Reduce結合Redis實現潛在好友查找算法


> 完整的應用邏輯實現:前臺好友關注,後臺潛在好友查找,再到前臺潛在好友推薦


第3章節:(2課時)

 

Hadoop Streaming(2課時)


> 非Java的Map Reduce實現


> 如何使用腳本語言實現一個Map Reduce任務
 

> 如何使用C語言實現一個Map Reduce任務


第4章節: (1課時)

 

Hadoop Pipes (1課時)


> 基於Hadoop Pipes,使用C++實現Map Reduce任務


第5章節: (2課時)

 

Apache Flume基礎 (2課時)


> Apache Flume概述


> Flume Agent詳細介紹及使用


> 深刻Flume子模塊: Source, Sink及Channel的使用


第6章節:  (3課時)

 

Flume實踐及分佈式應用 (3課時)


> 與搜索引擎自動推薦應用的結合


> 搭建分佈式的flume應用


第7章節: (5課時)

 

最短路徑算法的Hadoop實現(約5課時)


> 最短路徑算法介紹


> 如何使用MapReduce實現最短路徑算法


> 找到城市任意公交站點之間的最短路徑


第8章節: (3課時)

 

Hadoop集羣管理(約3課時)


> Hadoop的日誌管理


> 動態添加和刪除Hadoop節點


> Namenode和Datanode目錄結構介紹


> HDFS的數據安全性:fsimage和editlog
 

> Hadoop管理工具dfsadmin和fsck的使用


第9章節:(5課時)

 

PageRank算法的Hadoop實現(約5課時)


> Google的成名之做:PageRank算法介紹

> 如何使用Hadoop實現PageRank算法 

相關文章
相關標籤/搜索