大數據開發學習路線:大數據開發須要掌握哪些技術

大數據開發學習路線:大數據開發須要掌握哪些技術算法

當前大數據技術目前正處在落地應用的初期,將來大數據的發展空間仍是比較大的,因此學習大數據相關技術是個不錯的選擇。大數據開發學習路線是怎樣的?學習大數據開發須要掌握哪些技術呢?sql

 

大數據開發學習路線數據庫

第一階段:Hadoop生態架構技術編程

一、語言基礎windows

Java:多理解和實踐在Java虛擬機的內存管理、以及多線程、線程池、設計模式、並行化就能夠,不須要深刻掌握。設計模式

Linux:系統安裝、基本命令、網絡配置、Vim編輯器、進程管理、Shell腳本、虛擬機的菜單熟悉等等。數組

Python:基礎語法,數據結構,函數,條件判斷,循環等基礎知識。網絡

二、環境準備數據結構

這裏介紹在windows電腦搭建徹底分佈式,1主2從。多線程

VMware虛擬機、Linux系統(Centos6.5)、Hadoop安裝包,這裏準備好Hadoop徹底分佈式集羣環境。

三、MapReduce

MapReduce分佈式離線計算框架,是Hadoop核心編程模型。

四、HDFS1.0/2.0

HDFS能提供高吞吐量的數據訪問,適合大規模數據集上的應用。

五、Yarn(Hadoop2.0)

Yarn是一個資源調度平臺,主要負責給任務分配資源。

六、Hive

Hive是一個數據倉庫,全部的數據都是存儲在HDFS上的。使用Hive主要是寫Hql。

七、Spark

Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。

八、Spark Streaming

Spark Streaming是實時處理框架,數據是一批一批的處理。

九、Spark Hive

Spark做爲Hive的計算引擎,將Hive的查詢做爲Spark的任務提交到Spark集羣上進行計算,能夠提升Hive查詢的性能。

十、Storm

Storm是一個實時計算框架, Storm是對實時新增的每一條數據進行處理,是一條一條的處理,能夠保證數據處理的時效性。

十一、Zookeeper

Zookeeper是不少大數據框架的基礎,是集羣的管理者。

十二、Hbase

Hbase是一個Nosql 數據庫,是高可靠、面向列的、可伸縮的、分佈式的數據庫。

1三、Kafka

kafka是一個消息中間件,做爲一箇中間緩衝層。

1四、Flume

Flume常見的就是採集應用產生的日誌文件中的數據,通常有兩個流程。

一個是Flume採集數據存儲到Kafka中,方便Storm或者SparkStreaming進行實時處理。

另外一個流程是Flume採集的數據存儲到HDFS上,爲了後期使用hadoop或者spark進行離線處理。

第二階段:數據挖掘算法

一、中文分詞

開源分詞庫的離線和在線應用

二、天然語言處理

文本相關性算法

三、推薦算法

基於CB、CF,歸一法,Mahout應用。

四、分類算法

NB、SVM

五、迴歸算法

LR、Decision Tree

六、聚類算法

層次聚類、Kmeans

七、神經網絡與深度學習

NN、Tensorflow

以上就是學習Hadoop開發的一個詳細路線

 

想要在大數據這個領域汲取營養,讓本身壯大成長。分享方向,行動之前先分享下一個大數據交流分享資源羣870097548,歡迎想學習,想轉行的,進階中你加入學習。
 

學習大數據開發須要掌握哪些技術呢?

(1)Java語言基礎

Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字符串、Java數組與類和對象、數字處理類與核心技術、I/O與反射、多線程、Swing程序與集合類

(2)HTML、CSS與Java

PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生Java交互功能開發、Ajax異步交互、jQuery應用

(3)JavaWeb和數據庫

數據庫、JavaWeb開發核心、JavaWeb開發內幕

Linux&Hadoop生態體系

Linux體系、Hadoop離線計算大綱、分佈式數據庫Hbase、數據倉庫Hive、數據遷移工具Sqoop、Flume分佈式日誌框架

分佈式計算框架和Spark&Strom生態體系

(1)分佈式計算框架

Python編程語言、Scala編程語言、Spark大數據處理、Spark—Streaming大數據處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一:基於Spark的推薦系統(某一線公司真實項目)、實戰二:新浪網(www.sina.com.cn)

(2)storm技術架構體系

Storm原理與基礎、消息隊列kafka、Redis工具、zookeeper詳解、大數據項目實戰數據獲取、數據處理、數據分析、數據展示、數據應用

大數據分析—AI(人工智能)Data Analyze工做環境準備&數據分析基礎、數據可視化、Python機器學習

Python機器學習二、圖像識別&神經網絡、天然語言處理&社交網絡處理、實戰項目:戶外設備識別分析