大數據學習之路（持續更新中...）

時間 2019-11-20

標籤數據學習之路持續更新简体版

原文原文鏈接

在16年8月份至今，一直在努力學習大數據大數據相關的技術，很想了解衆多老司機的學習歷程。由於大數據涉及的技術很廣須要瞭解的東西也不少，會讓不少新手望而卻步。因此，我就在本身學習的過程當中總結一下學到的內容以及踩到的一些坑，但願獲得老司機的指點和新手的借鑑。html

目前正在結合機器學習理論學習MLlib源碼java

前言

在學習大數據以前，先要了解他解決了什麼問題，能給咱們帶來什麼價值。一方面，之前IT行業發展沒有那麼快，系統的應用也不完善，數據庫足夠支撐業務系統。可是隨着行業的發展，系統運行的時間愈來愈長，蒐集到的數據也愈來愈多，傳統的數據庫已經不能支撐全量數據的存儲工做；另外一方面，數據愈來愈多，單機的計算已經成爲瓶頸。所以，基於分佈式的大數據系統嶄露頭角。那麼大數據系統裏面都有什麼東西呢？能夠參考下面的圖node

在存儲上，hdfs的分佈式存儲能夠任意水平擴展，能夠解決數據存儲的難題。在計算上，從最初的MapReduce，把任務水平拆分，多臺機器並行計算，再彙總結果；到基於Spark的內存計算，改造Mapreduce每次數據落盤以及編程方式的痛點。mysql

有了存儲和計算框架，周邊就衍生出了不少管理、緩存相關的技術，好比：面試

yarn解決多租戶資源調度的難題，
flume解決數據傳輸的難題，
sqoop解決分佈式存儲數據與傳統DB數據之間的轉換，
oozie解決了大數據計算任務的調度，
kafka提供了發佈訂閱機制的消息隊列，
zookeeper能夠幫助用戶完成主備的選舉，
hive在hdfs的基礎上提供了數倉的功能，
hbase則基於hdfs實現列式數據庫....

上面都是hadoop生態的，因爲hadoop中計算模型廣泛是mapreduce，可是它的編程風格和計算機制讓不少人使用不便。所以後來spark逐漸代替了mapr成爲主流的計算框架。Spark也有它本身的生態，可是因爲hadoop更多更早的被應用到企業，因此spark也能夠無縫的集成hadoop生態中的產品。spark更多隻是扮演一個計算的框架，在這個框架上，提供了基本的計算模塊core，基於sql的計算引擎spark sql，對接實時數據的流式計算spark streaming，算法相關的mlib以及圖計算相關的graphx。算法

這些框架都在這個大數據生態中扮演了本身重要的角色，他們協同工做就能夠幫助咱們解決不少難題。因爲我也是接觸不久，因此就按照本身學習和工做涉及的內容，在下面按照各個章節進行介紹，後續也會持續的更新。但願對全部對大數據感興趣的sql

學習必備

在學習大數據的過程當中，須要具有的能力或者知識，在這裏簡單的羅列一下：shell

語言基礎：須要會使用shell腳本、java和scala(這倆語言主要是用於平常代碼和閱讀源代碼)
工具：IDE如eclipse或者idea，虛擬機和secureCRT鏈接工具
書籍：《Hadoop權威指南》《Hadoop YARN權威指南》《Spark快速大數據分析》《從Paxos到zookeeper分佈式一致性原理與實踐》《Hive編程指南》其餘的書籍閱讀後再推薦吧
博客：董的博客
進階：閱讀官方文檔（幫你瞭解它都能作什麼）、源代碼（幫你瞭解它是怎麼作的）

hdfs

hdfs是大數據系統的基礎，它提供了基本的存儲功能，因爲底層數據的分佈式存儲，上層任務也能夠利用數據的本地性進行分佈式計算。hdfs思想上很簡單，就是namenode負責數據存儲位置的記錄，datanode負責數據的存儲。使用者client會先訪問namenode詢問數據存在哪，而後去datanode存儲；寫流程也基本相似，會先在namenode上詢問寫到哪，而後把數據存儲到對應的datanode上。因此namenode做爲整個系統的靈魂，一旦它掛掉了，整個系統也就沒法使用了。在運維中，針對namenode的高可用變得十分關鍵。數據庫

2016-07-28 單節點部署Hadoop教程
2016-07-28 Hadoop HDFS 用戶指南

mapreduce

hive

hive基於hdfs構建了數據倉庫系統，它以hdfs做爲存儲，依賴於數據庫(嵌入式的數據庫derby或者獨立的數據mysql或oracle)存儲表schema信息，並完成基於sql自動解析建立mapreduce任務(因爲mapreduce計算效率比較差，目前官方推薦的是底層計算模型採用tez或者spark)。因此hive能夠理解爲：hdfs原始存儲+DB Schema信息存儲+SQL解析引擎+底層計算框架組成的數據倉庫。apache

官方文檔