大數據是指其大小和複雜性沒法經過現有經常使用的工具軟件,以合理的成本,在可接受的時限內對其進行捕獲、管理和處理的數據集。這些困難包括數據的收入、存儲、搜索、共享、分析和可視化。大數據要知足三個基本特徵(3V),數據量(volume)、數據多樣性(variety)和高速(velocity)。數據量指大數據要處理的數據量通常達到TB甚至PB級別。數據多樣性指處理的數據包括結構化數據、非結構化數據(視頻、音頻、網頁)和半結構化數據(xml、html)。高速指大數據必須可以快速流入而且能獲得快速處理。html
數據爆炸。伴隨信息技術的應用,全球數據量呈幾何級數增加。過去幾年間的數據總量超過了人類歷史上的數據總和。芯片、攝像頭、各自傳感器遍及世界各個角落,本來不能被感知的事物均可以被監測。軟硬件技術的不斷進步,也爲處理大數據創造的條件。java
第一個方式是抓取或者爬取。例如搜索引擎就是這麼作的:它把網上的全部的信息都下 載到它的數據中心,而後你一搜才能搜出來。
第二個方式是推送,有不少終端能夠幫我收集數據。好比說小米手環,能夠將你天天跑 步的數據,心跳的數據,睡眠的數據都上傳到數據中內心面。node
通常會經過隊列方式進行,由於數據量實在是太大了,數據必須通過處理纔會有用。可系統處理不過來,只好排好隊,慢慢處理。ios
存儲要確保安全,不易丟失,高容錯性。算法
存儲的數據是原始數據,原始數據可能是雜亂無章的,有不少垃圾數據在裏面,於是須要清洗和過濾,獲得一些高質量的數據。對於高質量的數據,就能夠進行分析,從而對數據進行分類,或者發現數據之間的相互關係,獲得知識。數據庫
使想要的信息容易被搜索到。挖掘信息之間的相互關係。安全
由於大數據的這些特色,針對其收集、傳輸、存儲、處理分析和檢索使用產生了許多開源框架。
|功能|框架|
|--|--|
|文件存儲|Hadoop HDFS、Tachyon、KFS|
|離線計算|Hadoop MapReduce、Spark|
|流式、實時計算|Storm、Spark Streaming、S四、Heron|
|K-V、NOSQL數據庫|HBase、Redis、MongoDB|
|資源管理|YARN、Mesos|
|日誌收集|Flume、Scribe、Logstash、Kibana|
|消息系統|Kafka、StormMQ、ZeroMQ、RabbitMQ|
|查詢分析|Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid|
|分佈式協調服務|Zookeeper|
|集羣管理與監控|Ambari、Ganglia、Nagios、Cloudera Manager|
|數據挖掘、機器學習|Mahout、Spark MLLib|
|數據同步|Sqoop|
|任務調度|Oozie|服務器
通常大數據平臺的框架以下圖
Hadoop HDFS和Hadoop MapReduce做爲大數據存儲和處理的開山鼻祖,大數據平臺上都處於核心位置。下面介紹一下兩個框架的基本原理。網絡
HDFS全稱Hadoop Distributed File System。HDFS是一個分佈式文件系統,能夠部署在一個服務器集羣上。Java語言開發,能夠部署在任何支撐java的機器上。
HDFS有幾個基本概念NameNode、DataNode和block。
NameNode負責整個分佈式文件系統的元數據管理,也就是文件路徑名,數據block的ID以及存儲位置等信息。還要記錄一些事情,好比哪些節點是集羣的一部分,某個block有幾份副本等。
DataNode是實際存儲文件數據的節點。DataNode會經過心跳和NameNode保持通訊,若是DataNode超時未發送心跳,NameNode就會認爲這個DataNode已經失效,當即查找這個DataNode上存儲的block有哪些,以及這些block還存儲在哪些服務器上,隨後通知這些服務器再複製一份block到其餘服務器上,保證HDFS存儲的block備份數符合用戶設置的數目,即便再有服務器宕機,也不會丟失數據。
Block是HDFS中的存儲單元,文件被寫入HDFS時,會被切分紅多個block塊,默認的塊大小是128MB,每一個數據塊默認會有三個副本。
數據寫入:首先將文件分紅多個block,每一個block會被寫入三個DataNode中,寫入哪三個DataNode中是由NameNode指定的,寫入完成,NameNode會記錄這些信息。同一個文件中不一樣的block可能會被寫入徹底不一樣的DataNode中。
數據讀取:數據讀取時按block讀取。每個block時,會從NameNode獲取信息,知道從哪一個DataNode中讀取,通常是就近原則。全部該文件的block讀取完成,構成完整的文件。
客戶端和Datanode是同一個機器:距離爲0 ,表示最近
客戶端和Datanode是同一個機架的不一樣機器 :距離爲2 ,稍微遠一點
客戶端和Datanode位於同一個數據中心的不一樣機架上 :距離爲4,更遠一點數據結構
Hadoop MapReduce是一個分佈式計算框架,其中的運算均可以在多個機器上並行進行。使用者只須要完成運算自己的編碼,不須要關心並行計算的底層細節。
MapReduce背後的思想很簡單,就是把一些數據經過Map來歸類,經過Reduce來把同一類的數據進行處理。Map和reduce的過程都是利用集羣的計算能力並行執行的。計算模型的核心是Map和Reduce函數,兩個函數由用戶自行實現。
把原始大數據集切割成小數據集時,一般小數據集小於等於HDFS的一個block的大小,這樣一個小數據集位於一個物理機上,便於本地計算。Map和reduce各自的啓動任務數量能夠由用戶指定。
上圖表示一個MapReduce統計單詞出現次數的過程,原始數據分割爲4個子文件,對每一個子文件按照用戶的Map函數會產生<單詞, 出現次數>的<k2,v2>形式的結果。而後把相同單詞的<k2,v2>組合在一塊兒構成<k2,List(v2)>的形式,做爲Reduce函數的輸入,相同的k2必定分發給相同的Reduce任務處理,例如單詞lorem的全部計算都由第一個Reduce任務來完成。按照這個思想,即便要統計的文件數量上千萬個,單詞數量有幾千個,可是經過MapReduce框架,只要集羣機器數量夠多,也是能夠在可接受時間內計算完成的。