新手入門大數據 Hadoop基礎與電商行爲日誌分析(一)

chuanshang一個案例:美國一女高中生收到嬰兒產品的推薦,被他的父親向商場投訴,結果最終,意識到女兒真的懷了孕。
大數據的4V特徵:
數據量 volume
速度 velocity
基於高度分析的價值 value (數據量與有用的數據價值多是成反比的)
多樣性 varietyapache

大數據帶來的技術變革服務器

技術驅動:數據量大
    存儲:文件存儲-->分佈式存儲
    計算:單機 --> 分佈式計算
    網絡:萬兆
    DB :RDBMS --> NOSQL (HBase/Redis...)

大數據技術概念:網絡

單機:CPU Memory disk
分佈式並行計算/處理

貨物搬到船上,是一個數據採集
處理:小於多少的石頭扔了 精細化的篩選架構

大數據的幾個重要部分:框架

1.採集 flume/sqoop
                2.存儲 hadoop 
                3.數據處理/挖掘/分析 hadoop spark flink
                4.可視化

大數據典型應用:分佈式

1.報表 2.用戶畫像 3. 指標監控 4.指標預警 (時效性的要求逐級變大)

學習一個新技術,直接看他的官網最好
Hadoop,hive,hbase都是Apache社區下面的頂級開源項目
地址: hadoop.apache.orgoop

hive.apache.org
              hbase.apache.org

reliable,scalable,distributed computing.(可依賴,可拓展,分佈式計算)
Hadoop:提供分佈式的存儲(一個文件被拆分紅不少塊,而且以副本的方式存儲在各個節點中)和計算
是一個分佈式的系統基礎架構:用戶能夠在不瞭解分佈式底層細節的狀況下進行使用
分佈式文件系統:HDFS 實現將文件分佈式存儲在不少的服務器上
分佈式計算框架:Mapreduce 實如今不少機器上進行分佈式並行計算
分佈式資源調度框架:YARN 實現集羣資源管理以及做業的調度學習

相關文章
相關標籤/搜索