大數據生態

[TOC] #參考java

#大數據概要 ##海量數據 量級: 1024K = 1M 1024m = 1G 1024G = 1P 1024P = 1E 1024E = 1Z 1024Z = 1Y 1024Y = 1NB ##大數據核心 存儲:分佈式(集羣) 計算:分佈式(集羣)mysql

v:volumn,體量大(數據量大) v:variaty,樣式多(數據種類繁多;結構化,半結構化,非結構化;json,xml,文本...) v:valueless,價值密度低(一行數據價值低,海量數據全量分析) v:velociy,速度快(數據產生快)算法

全量分析:throughput,吞吐量巨大的(礦石提煉黃金)sql

google:兩篇論文(gfs + mapreduce)shell

#大數據生態系統 ##參考www.apache.org ##金字塔結構(由底往上) ###Linux(ubuntu / centos / redhat / macOS) ###java,jvm,scala (shell) ###hadoop生態系統 ####hadoop 分佈式計算框架 hdfs(分佈式文件系統) + yarn(資源調度框架) mapreduce:編程模型 ####hive:數據倉庫 OSAP:在線事物分析 擅長:海量數據統計與分析 不擅長:高實時性,低延遲性 ####hbase:面向列族數據庫 sql、oracle、mysql 是rdbms關係性數據庫管理系統,面向行數據 面向列族:key-value存儲;十億行 x 十億列,隨機訪問 + 實時讀寫 ####pig:mr程序編寫系統 ####zookeeper:服務協同 HA:high availability,高可用性;不能單機部署 ####flume:日誌收集系統 ####sqoop:tool(rdbms 與 hadoop 數據傳輸工具) ###spark生態圈 內存計算框架(快如閃電);沒有分佈式存儲;替換hadoop的mapreduce; 在內存計算比hadoop快100倍,磁盤計算快10倍 大量可用內存,部署起碼32G+ ####spark sql 類sql語言實現數據聚合,分析(hadoop的hive、pig) ####spark streaming 流計算(hadoop的strom) ####MLLib 機器學習 machine learning library:類庫;算法 AlahGo(機器學習,神經網絡,算法) ####GraphX 圖計算 ###機器學習 數學知識 ####R 實驗室產品,圖表技術強悍 ####Mahout數據庫

#大數據(參與者) ##門外漢(扯談) ##企業boss(決策) ##專業技術人員apache

相關文章
相關標籤/搜索