大數據開發初學者必看的學習路線

大數據時代的出現簡單的講是海量數據同完美計算能力結合的結果,確切的說是移動互聯網、物聯網產生了海量的數據,大數據計算技術完美地解決了海量數據的收集、存儲、計算、分析的問題。當咱們最初談大數據的時候,談的最多的多是用戶行爲分析,即經過各類用戶行爲,包括瀏覽記錄,消費記錄,交往和購物娛樂,行動軌跡等各類用戶行爲產生的數據。因爲這些數據自己符合海量,異構的特徵,同時經過分析這些數據之間的關聯性容易匹配某些結果現象。java

固然大數據的價值遠遠不止於此,大數據對各行各業的滲透,大大推進了社會生產和生活,將來必將產生重大而深遠的影響。那麼迴歸主題,如何進行大數據領域,學習線路是什麼?node

第一階段:大數據基礎Java語言基礎階段

詳細知識點介紹:mysql

Java開發介紹:Java的發展歷史,Java的應用領域,Java語言的特性,Java面向對象,Java性能分類, 搭建Java環境,Java工做原理linux

熟悉Eclipse開發工具:Eclipse簡介與下載,安裝Eclipse的中文語言包, Eclipse的配置與啓動,Eclipse工做臺與視圖,「包資源管理器」視圖, 使用Eclipse, 使用編輯器編寫程序代碼web

Java語言基礎:Java主類結構,基本數據類型, 變量與常量,Java運算符, 數據類型轉換, 代碼註釋與編碼規範,Java幫助文檔正則表達式

Java流程控制:複合語句, 條件語句,if條件語句, switch多分支語句,while循環語句, do…while循環語句, for循環語句redis

Java字符串:String類, 鏈接字符串, 獲取字符串信息, 字符串操做, 格式化字符串, 使用正則表達式,字符串生成器算法

Java數組與類和對象:數組概述,一維數組的建立及使用,二維數組的建立及使用,數組的基本操做,數組排序算法,Java的類和構造方法、Java的對象,屬性和行爲sql

數字處理類與核心技術:數字格式化與運算,隨機數 與大數據運算,類的繼承與Object類,對象類型的轉換,使用instanceof操做符判斷對象類型,方法的重載與多態,抽象類與接口mongodb

I/O與反射、多線程:流概述與File類,文件 輸入/輸出流,緩存 輸入/輸出流, Class類與Java反射,Annotation功能類型信息,枚舉類型與泛型,建立、操做線程與線程安全

Swing程序與集合類:經常使用窗體,標籤組件與圖標,經常使用佈局管理器 與面板,按鈕組件 與列表組件,經常使用事件監聽器,集合類概述,Set集合 與Map集合及接口

PC端網站佈局:HTML基礎,CSS基礎,CSS核心屬性,CSS樣式層疊,繼承,盒模型,容器,溢出及元素類型,瀏覽器兼容與寬高自適應,定位,錨點與透明,圖片整合,表格,CSS屬性與濾鏡,CSS優化HTML5+CSS3基礎:HTML5新增的元素與屬性, CSS3選擇器,文字字體相關樣式,CSS3位移與變形處理,CSS3 2D、3D轉換與動畫,彈性盒模型,媒體查詢,響應式設計

WebApp頁面佈局項目:移動端頁面設計規範,移動端切圖,文字流式/控件彈性/圖片等比例的佈局,等比縮放佈局,viewport/meta,rem/vw的使用,flexbox詳解,移動web特別樣式處理

原生Java功能開發:原生Java功能開發,Java使用及運做原理,Java基本語法,Java內置對象,事件,事件原理,Java基本特效製做,cookie存儲,正則表達式

Ajax異步交互:Ajax概述與特徵,Ajax工做原理,對象,同步與異步,Ajax異步交互,Ajax跨域問題,Ajax數據的處理,基於WebSocket和推送的實時交互

JQuery應用:各選擇器使用及應用優化,Dom節點的各類操做,事件處理、封裝、應用,jQuery中的各種動畫使用,可用性表單的開發,jQuery Ajax、函數、緩存, jQuery編寫插件、擴展、應用,理解模塊式開發及應用

數據庫:Mysql數據庫,JDBC開發,鏈接池和DBUtils,Oracle介紹,MongoDB數據庫介紹,apache服務器/Nginx服務器,Memcached內存對象緩存系統

JavaWeb開發核心:XML技術,HTTP協議,Servlet工做原理解析,深刻理解Session與Cookie,Tomcat的系統架構與設計模式,JSP語法與內置對象,JDBC技術,大瀏覽量系統的靜態化架構設計

JavaWeb開發內幕:深刻理解Web請求過程,Java I/O的工做機制,Java Web中文編碼,Javac編譯原理,class文件結構,ClassLoader工做機制,JVM體系結構與工做方式,JVM內存管理

第二階段:Linux系統Hadoop生態體系

詳細知識點介紹:

Linux體系:VMware Workstation虛擬軟件安裝過程、CentOS虛擬機安裝過程,瞭解機架服務器,採用真實機架服務器部署linux,Linux的經常使用命令:經常使用命令的介紹、經常使用命令的使用和練習,Linux系統進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用,Linux啓動流程,運行級別詳VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和經常使用快捷鍵, Linux用戶和組帳戶管理:用戶的管理、組管理,Linux磁盤管理,lvm邏輯卷,nfs詳解,Linux系統文件權限管理:文件權限介紹、文件權限的操做,Linux的RPM軟件包管理:RPM包的介紹、RPM安裝、卸載等操做,yum命令,yum源搭建,Linux網絡:Linux網絡的介紹、Linux網絡的配置和維護,Shell編程,Shell的介紹、Shell腳本的編寫

Linux上常見軟件的安裝:安裝JDK、安裝Tomcat、安裝mysql,web項目部署

Hadoop離線計算:Hadoop生態環境介紹,Hadoop雲計算中的位置和關係,國內外Hadoop應用案例介紹,國內外Hadoop應用案例介紹,Hadoop 概念、版本、歷史,Hadoop 核心組成介紹及hdfs、mapreduce 體系結構,Hadoop 的集羣結構,Hadoop 僞分佈的詳細安裝步驟,經過命令行和瀏覽器觀察hadoop,HDFS底層&& datanode,namenode詳解&&shell&&Hdfs java api,Mapreduce四個階段介紹,Writable,InputSplit和OutputSplit,Maptask,Shuffle:Sort,Partitioner,Group,Combiner,Reducer,Mapreducer案例:二次排序, 倒排序索引, 最優路徑,電信數據挖掘之-----移動軌跡預測分析(中國棱鏡計劃),社交好友推薦算法,互聯網精準廣告推送算法,Hadoop離線計算大綱,阿里巴巴天池大數據競賽 《天貓推薦算法》,Mapreduce實戰pagerank算法,Hadoop2.x集羣結構體系介紹,Hadoop2.x集羣搭建,NameNode的高可用性(HA),HDFS Federation,ResourceManager 的高可用性(HA),Hadoop集羣常見問題和解決方法,Hadoop集羣管理

分佈式數據庫Hbase:Hbase簡介,HBase與RDBMS的對比,數據模型,系統架構,HBase上的MapReduce,表的設計,集羣的搭建過程講解,集羣的監控,集羣的管理,HBase Shell以及演示, Hbase 樹形表設計,Hbase 一對多 和 多對多 表設計,Hbase 微博 案例,Hbase 訂單案例,Hbase表級優化,分佈式數據庫Hbase,Hbase 寫數據優化,Hbase 讀數據優化Hbase API操做,hbase mapdreduce 和hive 整合數據倉庫Hive:數據倉庫基礎知識,Hive定義,Hive體系結構簡介,Hive集羣,客戶端簡介,HiveQL定義,HiveQL與SQL的比較,數據類型,外部表和分區表,ddl與CLI客戶端演示,dml與CLI客戶端演示,select與CLI客戶端演示,Operators 和 functions與CLI客戶端演示,Hive server2 與jdbc,用戶自定義函數(UDF 和 UDAF)的開發與演示,Hive 優化,serde

數據遷移工具Sqoop:Sqoop簡介以及使用,Sqoop shell使用,Sqoop-import,DBMS-hdfs,DBMS-hive,DBMS-hbase,Sqoop-export

Flume分佈式日誌框架:flume簡介-基礎知識,flume安裝與測試,flume部署方式,flume source相關配置及測試,flume sink相關配置及測試,flume selector 相關配置與案例分析,flume Sink Processors相關配置和案例分析,flume Interceptors相關配置和案例分析,flume AVRO Client開發,flume 和kafka 的整合

第三階段:分佈式計算框架Spark&Storm生態體系

 

詳細知識點介紹:

Scala編程語言:scala解釋器、變量、經常使用數據類型等,scala的條件表達式、輸入輸出、循環等控制結構,scala的函數、默認參數、變長參數等,scala的數組、變長數組、多維數組等,scala的映射、元組等操做,scala的類,包括bean屬性、輔助構造器、主構造器,scala的對象、單例對象、伴生對象、擴展類、apply方法等,scala的包、引入、繼承等概念,scala的特質,scala的操做符,scala的高階函數,scala的集合,scala數據庫鏈接

Spark大數據處理:Spark介紹,Spark應用場景,Spark和Hadoop MR、Storm的比較和優點, RDD,Transformation,Action,Spark計算PageRank,Lineage, Spark模型簡介,Spark緩存策略和容錯處理,寬依賴與窄依賴,Spark配置講解,Spark集羣搭建,集羣搭建常見問題解決,Spark原理核心組件和經常使用RDD,數據本地性,任務調度,DAGScheduler,TaskScheduler,Spark源碼解讀,性能調優,Spark和Hadoop2.x整合:Spark on Yarn原理

Spark—Streaming大數據實時處理:Spark Streaming:數據源和DStream ,無狀態transformation與有狀態transformation,Streaming Window的操做,sparksql 編程實戰,spark的多語言操做,spark最新版本的新特性

Spark—Mlib機器學習:Mlib簡介,Spark MLlib組件介紹,基本數據類型,迴歸算法,廣義線性模型,邏輯迴歸,分類算法,樸素貝葉斯,決策樹,隨機森林,推薦系統,聚類

Spark—GraphX 圖計算:二分圖,構造圖, 屬性圖,PageRank3.5.2 概述 構造圖,屬性圖,PageRank

storm技術架構體系:項目技術架構體系,Storm是什麼,Storm架構分析,Storm編程模型、Tuple源碼、併發度分析,Transformation,Maven環境快速搭建,Storm WordCount案例及經常使用Api,Storm+Kafka+Redis業務指標計算,3.6.9 Storm集羣安裝部署,Storm源碼下載編譯

Storm原理與基礎:Storm集羣啓動及源碼分析,Storm任務提交及源碼分析,Storm數據發送流程分析,Strom通訊機制分析淺談,Storm消息容錯機制及源碼分析,Storm多stream項目分析,Storm Trident和傳感器數據,實時趨勢分析,Storm DRPC(分佈式遠程調用)介紹,Storm DRPC實戰講解,編寫本身的流式任務執行框架

消息隊列kafka:消息隊列是什麼,kafka核心組件,kafka集羣部署實戰及經常使用命令,kafka配置文件梳理,kafka JavaApi學習,kafka文件存儲機制分析,kafka的分佈與訂閱,kafka使用zookeeper進行協調管理Redis工具:nosql介紹,redis介紹,redis安裝,客戶端鏈接,redis的數據功能,redis持久化,redis應用案例

zookeeper詳解:zookeeper簡介,zookeeper的集羣部署,zookeeper的核心工做機制,zookeeper的命令行操做,zookeeper的客戶端API,zookeeper的應用案例,zookeeper的原理補充

第四階段:大數據項目實戰

第五階段:大數據分析方向AI(人工智能)

詳細知識點介紹:

Python編程&&Data Analyze工做環境準備&數據分析基礎:介紹Python以及特色,Python的安裝,Python基本操做(註釋、邏輯、 字符串使用等),Python數據結構(元組、列表、字典),使用Python進行批量重命名小例子,Python常見內建函數,更多Python函數及使用常見技巧,異常,Python函數的參數講解,Python模塊的導入,網絡爬蟲案例,數據庫鏈接,以及pip安裝模塊,Mongodb基礎入門,講解如何鏈接mongodb,Python的機器學習案例,AI&&機器學習&&深度學習概論,工做環境準備,數據分析中經常使用的Python技巧,Pandas進階及技巧,數據的統計分析

數據可視化:數據可視化的概念,圖表的繪製及可視化,動畫及交互渲染,數據合併、分組

Python機器學習:機器學習的基本概念,ML工做流程,Python機器學習庫scikit-learn,KNN模型,線性迴歸模型,邏輯迴歸模型,支持向量機模型,決策樹模型,超參數&&學習參數,模型評價指標,交叉驗證,機器學習經典算法,樸素貝葉斯,隨機森林,GBDT

圖像識別&&神經網絡:圖像操做的工做流程,特徵工程,圖像特徵描述,AI網絡的描述,深度學習,TensorFlow框架學習,TensorFlow框架卷積神經網絡(CNN)

天然語言處理&&社交網絡處理:Python文本數據處理,天然語言處理及NLTK,主題模型,LDA,圖論簡介,網絡的操做及數據可視化

相關文章
相關標籤/搜索