如何學習大數據？阿里大數據開發師分享學習知識

時間 2019-11-19

原文原文鏈接

想要都進入大數據行業的第一步，是先搞清楚大數據究竟有哪些就業方向。

mysql

大數據就業崗位算法

隨着大數據技術在企業界如火如荼的實踐，企業對組建大數據團隊的迫切程度也也來越高，對與大數據相關高端人才的需求也愈來愈緊迫，但企業對大數據團隊的組建和角色分配方面缺一直有不小的困惑，到底大數據團隊裏應該擁有哪些幾類角色，如何設置崗位？同一類別的角色的專業方向又有哪些分化，不一樣專業的崗位對技能應該有哪些要求？如何管理大數據團隊成員的職業發展路徑？爲此，ChinaHadoop花費了一年時間調研了先進企業內部設立的大數據部門或團隊的組織結構和職能劃分，在此基礎上，首次提出了企業大數據團隊的崗位劃分，專業分類及定義，以及每一個崗位所需的技能及培訓，技能考覈對應的能力級別，咱們將之統稱爲」企業大數據人才崗位技能認證體系「。sql

經過對企業大數據人才崗位進行專業細分,崗位技能認證等級與企業現有技術專業通道造成對應關係，打通員工的職業發展通道，幫助企業逐步完善大數據團隊的組織結構，不斷提升團隊技能，爲各崗位及時儲備人才。數據庫

大數據團隊的角色分類企業大數據團隊的角色分類主要有三個大類別：大數據開發工程師、大數據運維工程師、大數據架構師。整體而言，咱們大數據人才劃分爲三個大類：編程

1、大數據開發工程師：圍繞大數據系平臺系統級的研發人員，熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深刻掌握如何編寫MapReduce的做業及做業流的管理完成對數據的計算，並可以使用Hadoop提供的通用算法，性能優化

熟練掌握Hadoop整個生態系統的組件如： Yarn，HBase、Hive、Pig等重要組件，可以實現對平臺監控、輔助運維繫統的開發。經過學習一系列面向開發者的Hadoop、Spark等大數據平臺開發技術，掌握設計開發大數據系統或平臺的工具和技能，可以從事分佈式計算框架如Hadoop、Spark羣集環境的部署、開發和管理工做，如性能改進、功能擴展、故障分析等。網絡

2、大數據運維工程師：瞭解Hadoop、Spark、Storm等主流大數據平臺的核心框架，熟悉Hadoop的核心組件：HDFS、MapReduce、Yarn；具有大數據集羣環境的資源配置，如網絡要求、硬件配置、系統搭建。熟悉各類大數據平臺的部署方式，集羣搭建，故障診斷、平常維護、性能優化，同時負責平臺上的數據採集、數據清洗、數據存儲，數據維護及優化。熟練使用Flume、Sqoop等工具將外部數據加載進入大數據平臺，經過管理工具分配集羣資源實現多用戶協同使用集羣資源。架構

3、大數據架構師：這一角色的要求是綜合型的，對各類開源和商用的大數據系統平臺和產品的特色很是熟悉，能基於Hadoop、Spark、 NoSQL、 Storm流式計算、分佈式存儲等主流大數據技術進行平臺架構設計，負責企業選用軟件產品的技術選型，具體項目中的數據庫設計及實現工做，協助開發人員完成數據庫部分的程序，能解決公司軟件產品或者項目開發和運維中與數據庫相關的問題；及時解決項目開發或產品研發中的技術難題，對設計系統的最終性能和穩定性負責。崗位能力級別定義：1. 初級：具有基本的大數據技術的基礎知識，能夠將其視爲大數據認證的初學或者入門等級。2. 高級：大數據認證的高級或者熟練等級，代表該人才具有大數據某一專業方向的基本知識和熟練技能。3. 專家：具備業界公認的專業大數據技術知識和豐富工做經驗。這裏簡單介紹幾種我認爲用的比較多的技術負載均衡

1、Hadoop 能夠說，hadoop幾乎已是大數據代名詞。不管是是否同意，hadoop已是大部分企業的大數據標準。得益於Hadoop生態圈，從如今來看，尚未什麼技術可以動搖hadoop的地位。框架

這一塊能夠按照一下內容來學習：

一、Hadoop產生背景二、Hadoop在大數據、雲計算中的位置和關係三、國內外Hadoop應用案例介紹四、國內Hadoop的就業狀況分析及課程大綱介紹五、分佈式系統概述六、Hadoop生態圈以及各組成部分的簡介

2、分佈式文件系統HDFS HDFS全稱 Hadoop Distributed File System ，它是一個高度容錯性的系統，適合部署在廉價的機器上，同時能提供高吞吐量的數據訪問，很是適合大規模數據集上的應用。爲了實現流式讀取文件系統數據的目的，HDFS放寬了一部分POSIX約束。

一、分佈式文件系統HDFS簡介二、HDFS的系統組成介紹三、HDFS的組成部分詳解四、副本存放策略及路由規則五、NameNode Federation 六、命令行接口七、Java接口八、客戶端與HDFS的數據流講解九、HDFS的可用性（HA） 3、初級MapReduce 這是你成爲Hadoop開發人員的基礎課程。

MapReduce提供瞭如下的主要功能:

1)數據劃分和計算任務調度:

2)數據/代碼互定位:

3)系統優化:

4)出錯檢測和恢復:

這種編程模型主要用於大規模數據集(大於1TB)的並行運算。

一、如何理解map、reduce計算模型二、剖析僞分佈式下MapReduce做業的執行過程三、Yarn模型四、序列化五、MapReduce的類型與格式六、MapReduce開發環境搭建七、MapReduce應用開發八、熟悉MapReduce算法原理 4、高級MapReduce 這一塊主要是高級Hadoop開發的技能，都是MapReduce爲何我要分開寫呢？由於我真的不以爲誰能直接上手就把MapReduce搞得清清楚楚。

一、使用壓縮分隔減小輸入規模二、利用Combiner減小中間數據三、編寫Partitioner優化負載均衡四、如何自定義排序規則五、如何自定義分組規則六、MapReduce優化 5、Hadoop集羣與管理這裏會涉及到一些比較高級的數據庫管理知識，乍看之下都是操做性的內容，可是作成容易，作好很是難。

一、Hadoop集羣的搭建二、Hadoop集羣的監控三、Hadoop集羣的管理四、集羣下運行MapReduce程序 6、ZooKeeper基礎知識 ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

一、ZooKeeper體現結構二、ZooKeeper集羣的安裝三、操做ZooKeeper 7、HBase基礎知識 HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。

與FUJITSU Cliq等商用大數據產品不一樣，HBase是Google Bigtable的開源實現，相似Google Bigtable利用GFS做爲其文件存儲系統，HBase利用Hadoop HDFS做爲其文件存儲系統；Google運行MapReduce來處理Bigtable中的海量數據，HBase一樣利用Hadoop MapReduce來處理HBase中的海量數據；Google Bigtable利用 Chubby做爲協同服務，HBase利用Zookeeper做爲對應。

一、HBase定義二、HBase與RDBMS的對比三、數據模型四、系統架構五、HBase上的MapReduce 六、表的設計 8、HBase集羣及其管理一、集羣的搭建過程二、集羣的監控三、集羣的管理 10、Pig基礎知識 Pig是進行Hadoop計算的另外一種框架，是一個高級過程語言，適合於使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。經過容許對分佈式數據集進行相似 SQL 的查詢，Pig 能夠簡化 Hadoop 的使用。

一、Pig概述二、安裝Pig 三、使用Pig完成手機流量統計業務 11、Hive hive是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，能夠將sql語句轉換爲MapReduce任務進行運行。其優勢是學習成本低，能夠經過類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用。

一、數據倉庫基礎知識二、Hive定義三、Hive體系結構簡介四、Hive集羣五、客戶端簡介六、HiveQL定義七、HiveQL與SQL的比較八、數據類型九、表與表分區概念十、表的操做與CLI客戶端十一、數據導入與CLI客戶端十二、查詢數據與CLI客戶端 1三、數據的鏈接與CLI客戶端 1四、用戶自定義函數（UDF） 12、Sqoop Sqoop(發音：skup)是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞，能夠將一個關係型數據庫（例如： MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也能夠將HDFS的數據導進到關係型數據庫中。

一、配置Sqoop 二、使用Sqoop把數據從MySQL導入到HDFS中三、使用Sqoop把數據從HDFS導出到MySQL中十3、Storm Storm爲分佈式實時計算提供了一組通用原語，可被用於「流處理」之中，實時處理消息並更新數據庫。這是管理隊列及工做者集羣的另外一種方式。 Storm也可被用於「連續計算」（continuous computation），對數據流作連續查詢，在計算時就將結果以流的形式輸出給用戶。它還可被用於「分佈式RPC」，以並行的方式運行昂貴的運算。

一、Storm基礎知識：包括Storm的基本概念和Storm應用場景，體系結構與基本原理，Storm和Hadoop的對比二、Storm集羣搭建：詳細講述Storm集羣的安裝和安裝時常見問題三、Storm組件介紹: spout、bolt、stream groupings等四、Storm消息可靠性：消息失敗的重發五、Hadoop 2.0和Storm的整合：Storm on YARN 六、Storm編程實戰