大數據架構工具hadoop

Hadoop是一個開源框架,它容許在整個集羣使用簡單編程模型計算機的分佈式環境存儲並處理大數據。它的目的是從單一的服務器到上千臺機器的擴展,每個臺機均可以提供本地計算和存儲。

90%的世界數據在過去的幾年中產生」。mongodb

因爲新技術,設備和相似的社交網站通訊裝置的出現,人類產生的數據量每一年都在迅速增加。美國從一開始的時候到2003年產生的數據量爲5十億千兆字節。若是以堆放的數據磁盤的形式,它能夠填補整個足球場。在2011年建立相同數據量只須要兩天,在2013年該速率仍在每十分鐘極大地增加。雖然生產的全部這些信息是有意義的,處理起來有用的,可是它被忽略了。數據庫

什麼是大數據?

大數據是不能用傳統的計算技術處理的大型數據集的集合。它不是一個單一的技術或工具,而是涉及的業務和技術的許多領域。編程

在大數據會發生什麼?

大數據包括經過不一樣的設備和應用程序所產生的數據。下面給出的是一些在數據的框架下的領域。安全

  • 黑匣子數據:這是直升機,飛機,噴氣機的一個組成部分,它捕獲飛行機組的聲音,麥克風和耳機的錄音,以及飛機的性能信息。服務器

  • 社會化媒體數據:社會化媒體,如Facebook和Twitter保持信息發佈的數百萬世界各地的人的意見觀點。網絡

  • 證券交易所數據:交易所數據保存有關的「買入」和「賣出」,客戶由不一樣的公司所佔的份額決定的信息。架構

  • 電網數據:電網數據保持相對於基站所消耗的特定節點的信息。併發

  • 交通運輸數據:交通數據包括車輛的型號,容量,距離和可用性。框架

  • 搜索引擎數據:搜索引擎獲取大量來自不一樣數據庫中的數據。yii

Big Data

所以,大數據包括體積龐大,高流速和可擴展的各類數據。它的數據爲三種類型。

  • 結構化數據:關係數據。

  • 半結構化數據:XML數據。

  • 非結構化數據:Word, PDF, 文本,媒體日誌。

大數據的好處

  • 經過保留了社交網絡如Facebook的信息,市場營銷機構瞭解能夠他們的活動,促銷等廣告媒介的響應。

  • 利用信息計劃生產在社會化媒體同樣喜愛並讓消費者對產品的認知,產品企業和零售企業。

  • 使用關於患者之前的病歷資料,醫院提供更好的和快速的服務。

大數據技術

大數據的技術是在提供更準確的分析,這可能影響更多的具體決策致使更大的運行效率,下降成本,並減小了對業務的風險。

爲了利用大數據的力量,須要管理和處理的實時結構化和非結構化的海量數據,能夠保護數據隱私和安全的基礎設施。

目前在市場上的各類技術,從不一樣的供應商,包括亞馬遜,IBM,微軟等來處理大數據。儘管找到了處理大數據的技術,咱們研究瞭如下兩類技術:

操做大數據

這些包括像MongoDB系統,提供業務實時的能力,這裏主要是數據捕獲和存儲互動工做。

NoSQL大數據系統的設計充分利用已經出如今過去的十年,而讓大量的計算,以廉價,高效地運行新的雲計算架構的優點。這使得運營大數據工做負載更容易管理,更便宜,更快的實現。

一些NoSQL系統能夠提供深刻了解基於使用最少的編碼無需數據科學家和額外的基礎架構的實時數據模式。

分析大數據

這些包括,如大規模並行處理(MPP)數據庫系統和MapReduce提供用於回顧性和複雜的分析,可能觸及大部分或所有數據的分析能力的系統。

MapReduce提供分析數據的基礎上,MapReduce能夠按比例增長從單個服務器向成千上萬的高端和低端機的互補SQL提供的功能,這是系統的一種新方法。

這兩個類技術是互補的,並常常一塊兒部署。

操做與分析系統

  操做 分析
等待時間 1 ms - 100 ms 1 min - 100 min
併發 1000 - 100,000 1 - 10
訪問模式 寫入和讀取 讀取
查詢 選擇 非選擇性
數據範圍 操做 回溯
最終用戶 顧客 數據科學家
技術 NoSQL MapReduce, MPP 數據庫

大數據的挑戰

大數據相關的主要挑戰以下:

  • 採集數據
  • 策展
  • 存儲
  • 搜索
  • 分享
  • 傳輸
  • 分析
  • 展現

爲了實現上述挑戰,企業一般須要企業級服務器的幫助。

原文出自【易百教程】,商業轉載請聯繫做者得到受權,非商業轉載請保留原文連接:https://www.yiibai.com/hadoop/
相關文章
相關標籤/搜索