建議收藏|10+互聯網大廠總結的大數據學習路線

你好,我是號主的朋友應癲,大數據領域十年研發和管理,曾就任於中國電子、美團、字節跳動。今天給你們分享的是我根據本身的經歷和經驗總結出來的大數據技術學習路線,教你如何突破大數據層層技術難關。 watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=如圖,你能夠看到一些圖標,紅色的小紅旗表示這個地方是重點,綠色的對勾表示這個地方是難點。對重點和難點更詳細的解讀,接下來我也會分享,如今仍是先來認識總體的學習路線。 watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=整個學習路線在這裏分紅了 14 個階段,而這 14 個階段會被進一步劃分爲 5 大模塊。
1. Java 知識
第一大模塊是 Java 的知識,做爲大數據從業人員,Java 是咱們必需要會的。由於大數據平臺不少軟件都是 Java 開發的,因此咱們必需要掌握這門編程語言。
2. 離線階段
第二大模塊是離線階段。你已經知道大數據計算有離線計算和實時流式計算,離線計算在當下企業中應用得也比較多,實時雖然是王道,但現狀是,在企業應用當中離線計算也佔有挺大比例。對於離線階段,你重點要學習 Hadoop 框架以及 Hadoop 生態圈當中的技術棧。除此以外,數據採集工具 Flume,大數據交互組件 Hue 也須要學習。以及前面提到的 HBase 非關係型據庫,包括一些任務調度系統。這些咱們都把它歸爲 Hadoop 生態圈技術棧。在我給你們提供的學習路線圖當中,離線階段還有其餘兩個內容,就是 Redis 和 Kafka。這就是大數據平臺常常涉及到的兩個組件——Redis 和 Kafka,須要咱們去學習。其實 Kafka 比 Redis 在大數據平臺當中更加常見。學完這部分,你能夠選擇作一作離線數倉項目鞏固一下知識。
3. 實時階段
實時階段離不開 Spark,建議你在學習 Spark 以前,最好掌握 Scala 語言,每每在寫 Spark 程序是用 Scala 語言去開發。Spark 不只有離線處理部分,也有實時處理部分。其中離線處理部分就叫做 Spark SQL,能夠處理離線數據;實時處理部分叫做 Spark Streaming,能夠處理流式數據。除此以外,你還應該去掌握一下 Spark 的源碼以及 Spark 的調優措施。學習完 Spark 的知識點,你最好去作一個 Spark 實時處理項目,綜合地練習一下。
4. 新技術實踐階段
最近一兩年其實也出現了一些新技術,這些新技術也受到愈來愈多的企業關注,因此對於咱們來講,仍是有必要去學習它的。好比實時處理框架 Flink,如今受到了不少企業關注。還有好比作多維分析、時效性特別高的軟件,像 ClickHouse、Kudu、Kylin 以及 Druid。還有 Elastic Stack(ELK),即海量日誌平臺。其實 ELK 並不算是很新,放在這裏是提醒你注意下學習大數據平臺知識的時候, 也應該學習到 ELK。在新技術實踐階段,也最好作一個項目,把這些知識進行綜合性地練習。
5. 機器學習階段
由於大數據發展的下一步就是人工智能機器學習,這兩個領域中間的界限如今很是模糊了。在大數據開發的過程當中也常常會去調用一些機器學習算法,因此仍是要儲備必定的機器學習知識,這樣的話咱們才更有競爭力。對於機器學習,咱們常常用 Python 語言,因此你能夠去學習 Python,再去學習一些機器學習框架,好比 TensorFlow 以及 Spark MLib。最後固然你也能夠搞一個項目去練習,夯實你所學習到的大數據和算法的知識。
相關文章
相關標籤/搜索