大數據技術的體系龐大且複雜,基礎的技術包含數據的採集、數據預處理、分佈式存儲、NoSQL數據庫、數據倉庫、機器學習、並行計算、可視化等各類技術範疇和不一樣的技術層面。首先給出一個通用化的大數據處理框架,主要分爲下面幾個方面:數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。前端
1、數據採集與預處理算法
對於各類來源的數據,包括移動互聯網數據、社交網絡的數據等,這些結構化和非結構化的海量數據是零散的,也就是所謂的數據孤島,此時的這些數據並無什麼意義,數據採集就是將這些數據寫入數據倉庫中,把零散的數據整合在一塊兒,對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、數據庫日誌的採集、關係型數據庫的接入和應用程序的接入等。在數據量比較小的時候,能夠寫個定時的腳本將日誌寫入存儲系統,但隨着數據量的增加,這些方法沒法提供數據安全保障,而且運維困難,須要更強壯的解決方案。sql
Flume NG做爲實時日誌收集系統,支持在日誌系統中定製各種數據發送方,用於收集數據,同時,對數據進行簡單處理,並寫到各類數據接收方(好比文本,HDFS,Hbase等)。Flume NG採用的是三層架構:Agent層,Collector層和Store層,每一層都可水平拓展。其中Agent包含Source,Channel和 Sink,source用來消費(收集)數據源到channel組件中,channel做爲中間臨時存儲,保存全部source的組件信息,sink從channel中讀取數據,讀取成功以後會刪除channel中的信息。數據庫
NDC,Netease Data Canal,直譯爲網易數據運河系統,是網易針對結構化數據庫的數據實時遷移、同步和訂閱的平臺化解決方案。它整合了網易過去在數據傳輸領域的各類工具和經驗,將單機數據庫、分佈式數據庫、OLAP系統以及下游應用經過數據鏈路串在一塊兒。除了保障高效的數據傳輸外,NDC的設計遵循了單元化和平臺化的設計哲學。編程
Logstash是開源的服務器端數據處理管道,可以同時從多個來源採集數據、轉換數據,而後將數據發送到您最喜歡的 「存儲庫」 中。通常經常使用的存儲庫是Elasticsearch。Logstash 支持各類輸入選擇,能夠在同一時間從衆多經常使用的數據來源捕捉事件,可以以連續的流式傳輸方式,輕鬆地從您的日誌、指標、Web 應用、數據存儲以及各類 AWS 服務採集數據。後端
Sqoop,用來將關係型數據庫和Hadoop中的數據進行相互轉移的工具,能夠將一個關係型數據庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中,也能夠將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關係型數據庫(例如Mysql、Oracle)中。Sqoop 啓用了一個 MapReduce 做業(極其容錯的分佈式並行計算)來執行任務。Sqoop 的另外一大優點是其傳輸大量結構化或半結構化數據的過程是徹底自動化的。安全
流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析,能夠對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋,目前大數據流分析工具備不少,好比開源的strom,spark streaming等。服務器
Strom集羣結構是有一個主節點(nimbus)和多個工做節點(supervisor)組成的主從結構,主節點經過配置靜態指定或者在運行時動態選舉,nimbus與supervisor都是Storm提供的後臺守護進程,之間的通訊是結合Zookeeper的狀態變動通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集羣上運行的topology(包括topology的發佈、任務指派、事件處理時從新指派任務等)。supervisor進程等待nimbus分配任務後生成並監控worker(jvm進程)執行任務。supervisor與worker運行在不一樣的jvm上,若是由supervisor啓動的某個worker由於錯誤異常退出(或被kill掉),supervisor會嘗試從新生成新的worker進程。網絡
當使用上游模塊的數據進行計算、統計、分析時,就可使用消息系統,尤爲是分佈式消息系統。Kafka使用Scala進行編寫,是一種分佈式的、基於發佈/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另外一個數據中心,Kafka能夠有許多的生產者和消費者分享多個主題,將消息以topic爲單位進行概括;Kafka發佈消息的程序稱爲producer,也叫生產者,預訂topics並消費消息的程序稱爲consumer,也叫消費者;當Kafka以集羣的方式運行時,能夠由一個服務或者多個服務組成,每一個服務叫作一個broker,運行過程當中producer經過網絡將消息發送到Kafka集羣,集羣向消費者提供消息。Kafka經過Zookeeper管理集羣配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Producer使用push模式將消息發佈到broker,Consumer使用pull模式從broker訂閱並消費消息。Kafka能夠和Flume一塊兒工做,若是須要將流式數據從Kafka轉移到hadoop,可使用Flume代理agent,將Kafka當作一個來源source,這樣能夠從Kafka讀取數據到Hadoop。架構
Zookeeper是一個分佈式的,開放源碼的分佈式應用程序協調服務,提供數據同步服務。它的做用主要有配置管理、名字服務、分佈式鎖和集羣管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的全部的均可以得到變動,省去了手動拷貝配置的繁瑣,還很好的保證了數據的可靠和一致性,同時它能夠經過名字來獲取資源或者服務的地址等信息,能夠監控集羣中機器的變化,實現了相似於心跳機制的功能。
2、數據存儲
Hadoop做爲一個開源的框架,專爲離線和大規模數據分析而設計,HDFS做爲其核心的存儲引擎,已被普遍用於數據存儲。
HBase,是一個分佈式的、面向列的開源數據庫,能夠認爲是hdfs的封裝,本質是數據存儲、NoSQL數據庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop同樣,Hbase目標主要依靠橫向擴展,經過不斷增長廉價的商用服務器,來增長計算和存儲能力。
Phoenix,至關於一個Java中間件,幫助開發工程師可以像使用JDBC訪問關係型數據庫同樣訪問NoSQL數據庫HBase。
Yarn是一種Hadoop資源管理器,可爲上層應用提供統一的資源管理和調度,它的引入爲集羣在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成:一個全局的資源管理器ResourceManager、ResourceManager的每一個節點代理NodeManager、表示每一個應用的Application以及每個ApplicationMaster擁有多個Container在NodeManager上運行。
Mesos是一款開源的集羣管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。
Redis是一種速度很是快的非關係數據庫,能夠存儲鍵與5種不一樣類型的值之間的映射,能夠將存儲在內存的鍵值對數據持久化到硬盤中,使用複製特性來擴展性能,還可使用客戶端分片來擴展寫性能。
Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來,Atlas至關於鏈接它的客戶端,在前端應用看來,Atlas至關於一個DB。Atlas做爲服務端與應用程序通信,它實現了MySQL的客戶端和服務端協議,同時做爲客戶端與MySQL通信。它對應用程序屏蔽了DB的細節,同時爲了下降MySQL負擔,它還維護了鏈接池。Atlas啓動後會建立多個線程,其中一個爲主線程,其他爲工做線程。主線程負責監聽全部的客戶端鏈接請求,工做線程只監聽主線程的命令請求。
Kudu是圍繞Hadoop生態圈創建的存儲引擎,Kudu擁有和Hadoop生態圈共同的設計理念,它運行在普通的服務器上、可分佈式規模化部署、而且知足工業界的高可用要求。其設計理念爲fast analytics on fast data。做爲一個開源的存儲引擎,能夠同時提供低延遲的隨機讀寫和高效的數據分析能力。Kudu不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet性能的批量掃描操做。使用同一份存儲,既能夠進行隨機讀寫,也能夠知足數據分析的要求。Kudu的應用場景很普遍,好比能夠進行實時的數據分析,用於數據可能會存在變化的時序數據應用等。
在數據存儲過程當中,涉及到的數據表都是成千上百列,包含各類複雜的Query,推薦使用列式存儲方法,好比parquent,ORC等對數據進行壓縮。Parquet 能夠支持靈活的壓縮選項,顯著減小磁盤上的存儲。
3、數據清洗
MapReduce做爲Hadoop的查詢引擎,用於大規模數據集的並行計算,」Map(映射)」和」Reduce(歸約)」,是它的主要思想。它極大的方便了編程人員在不會分佈式並行編程的狀況下,將本身的程序運行在分佈式系統中。
隨着業務數據量的增多,須要進行訓練和清洗的數據會變得愈來愈複雜,這個時候就須要任務調度系統,好比oozie或者azkaban,對關鍵任務進行調度和監控。
Oozie是用於Hadoop平臺的一種工做流調度引擎,提供了RESTful API接口來接受用戶的提交請求(提交工做流做業),當提交了workflow後,由工做流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好做業(MR做業),而後向Oozie提交Workflow,Oozie以異步方式將做業(MR做業)提交給Hadoop。這也是爲何當調用Oozie 的RESTful接口提交做業以後能當即返回一個JobId的緣由,用戶程序沒必要等待做業執行完成(由於有些大做業可能會執行好久(幾個小時甚至幾天))。Oozie在後臺以異步方式,再將workflow對應的Action提交給hadoop執行。
Azkaban也是一種工做流的控制引擎,能夠用來解決有多個hadoop或者spark等離線計算任務之間的依賴關係問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、調度以及對工做流執行過程當中的監控等;Azkaban Executor Server用來調度工做流和任務,記錄工做流或者任務的日誌。
流計算任務的處理平臺Sloth,是網易首個自研流計算平臺,旨在解決公司內各產品日益增加的流計算需求。做爲一個計算服務平臺,其特色是易用、實時、可靠,爲用戶節省技術方面(開發、運維)的投入,幫助用戶專一於解決產品自己的流計算需求。
4、數據查詢分析
Hive的核心工做就是把SQL語句翻譯成MR程序,能夠將結構化的數據映射爲一張數據庫表,並提供 HQL(Hive SQL)查詢功能。Hive自己不存儲和計算數據,它徹底依賴於HDFS和MapReduce。能夠將Hive理解爲一個客戶端工具,將SQL操做轉換爲相應的MapReduce jobs,而後在hadoop上面運行。Hive支持標準的SQL語法,免去了用戶編寫MapReduce程序的過程,它的出現可讓那些精通SQL技能、可是不熟悉MapReduce 、編程能力較弱與不擅長Java語言的用戶可以在HDFS大規模數據集上很方便地利用SQL 語言查詢、彙總、分析數據。
Hive是爲大數據批量處理而生的,Hive的出現解決了傳統的關係型數據庫(MySql、Oracle)在大數據處理上的瓶頸 。Hive 將執行計劃分紅map->shuffle->reduce->map->shuffle->reduce…的模型。若是一個Query會被編譯成多輪MapReduce,則會有更多的寫中間結果。因爲MapReduce執行框架自己的特色,過多的中間過程會增長整個Query的執行時間。在Hive的運行過程當中,用戶只須要建立表,導入數據,編寫SQL分析語句便可。剩下的過程由Hive框架自動的完成。
Impala是對Hive的一個補充,能夠實現高效的SQL查詢。使用Impala來實現SQL on Hadoop,用來進行大數據實時查詢分析。經過熟悉的傳統關係型數據庫的SQL風格來操做大數據,同時數據也是能夠存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapReduce批處理,而是經過使用與商用並行關係數據庫中相似的分佈式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),能夠直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據,從而大大下降了延遲。Impala將整個查詢分紅一執行計劃樹,而不是一連串的MapReduce任務,相比Hive沒了MapReduce啓動時間。
Hive 適合於長時間的批處理查詢分析,而Impala適合於實時交互式SQL查詢,Impala給數據人員提供了快速實驗,驗證想法的大數據分析工具,能夠先使用Hive進行數據轉換處理,以後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來講:Impala把執行計劃表現爲一棵完整的執行計劃樹,能夠更天然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->reduce模式,以此保證Impala有更好的併發性和避免沒必要要的中間sort與shuffle。可是Impala不支持UDF,能處理的問題有必定的限制。
Spark擁有Hadoop MapReduce所具備的特色,它將Job中間輸出結果保存在內存中,從而不須要讀取HDFS。Spark 啓用了內存分佈數據集,除了可以提供交互式查詢外,它還能夠優化迭代工做負載。Spark 是在 Scala 語言中實現的,它將 Scala 用做其應用程序框架。與 Hadoop 不一樣,Spark 和 Scala 可以緊密集成,其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。
Nutch 是一個開源Java 實現的搜索引擎。它提供了咱們運行本身的搜索引擎所需的所有工具,包括全文搜索和Web爬蟲。
Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業級搜索應用的全文搜索服務器。它對外提供相似於Web-service的API接口,用戶能夠經過http請求,向搜索引擎服務器提交必定格式的XML文件,生成索引;也能夠經過Http Get操做提出查找請求,並獲得XML格式的返回結果。
Elasticsearch是一個開源的全文搜索引擎,基於Lucene的搜索服務器,能夠快速的儲存、搜索和分析海量的數據。設計用於雲計算中,可以達到實時搜索,穩定,可靠,快速,安裝使用方便。
還涉及到一些機器學習語言,好比,Mahout主要目標是建立一些可伸縮的機器學習算法,供開發人員在Apache的許可下無償使用;深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟件庫TensorFlow等,經常使用的機器學習算法好比,貝葉斯、邏輯迴歸、決策樹、神經網絡、協同過濾等。若是你想要學好大數據最好加入一個好的學習環境,能夠來這個Q羣[529+867+072 ]這樣你們學習的話就比較方便,還可以共同交流和分享資料
5、數據可視化
對接一些BI平臺,將分析獲得的數據進行可視化,用於指導決策服務。主流的BI平臺好比,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可點擊這裏免費試用)等。
在上面的每個階段,保障數據的安全是不可忽視的問題。
基於網絡身份認證的協議Kerberos,用來在非安全網絡中,對我的通訊以安全的手段進行身份認證,它容許某實體在非安全網絡環境下通訊,向另外一個實體以一種安全的方式證實本身的身份。
控制權限的ranger是一個Hadoop集羣權限框架,提供操做、監控、管理複雜的數據權限,它提供一個集中的管理機制,管理基於yarn的Hadoop生態圈的全部數據權限。能夠對Hadoop生態的組件如Hive,Hbase進行細粒度的數據訪問控制。經過操做Ranger控制檯,管理員能夠輕鬆的經過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、數據庫、表、字段權限。這些策略能夠爲不一樣的用戶和組來設置,同時權限可與hadoop無縫對接。