Hadoop集羣在互聯網企業的應用node
1. 京東商城數據庫
(1) 源起:爲pop商家進行日誌分析服務安全
(2) 瓶頸服務器
性能瓶頸:採用Oracle RAC(2節點),IBM小型機,因爲數據量極大,沒法知足時效要求架構
成本瓶頸:小型機再進行高配和節點擴展,價格太貴運維
(3) Hadoop集羣做爲解決方案分佈式
20多個節點的hadoop集羣oop
數據定時從收集服務器裝載到hadoop集羣(週期爲天極或小時級)性能
數據通過整理(預處理)後放進數據倉庫系統,數據倉庫是基於hive架構的,使用Hive的主要緣由是技術人員基本都是基於Oracle數據庫的技能,因爲Hive支持SQL查詢,於是技能能夠平穩過渡.net
數據倉庫查詢統計的結果會被導到hbase,而後和應用進行鏈接,應用捕魚hive直接鏈接的緣由,是基於效率的考慮。導出數據到hbase由自行開發的一段c程序完成
應用即portal經過API與hbase鏈接獲取數據
(4) 遇到的挑戰
(5) 心得體會
(6) 部門結構
2.Hadoop在淘寶和支付寶的應用
(1)
(2)對hadoop源起的修改
改進Namenode單點問題
增長安全性
改善Hbase的穩定性
改進反哺Hadoop社區
(3)管理模式
集團統一管理
Hadoop運維團隊
Hadoop開發團隊
數據倉庫團隊(Hive)
(4)準實時的流數據處理技術
(5)淘寶數據魔方
(6) 架構圖
(7)量子恆道
(8)oceanbase
總體數據分佈
數據演進過程
3.Hadoop在百度的應用
(1)
(2)挑戰
(3)分佈式計算2.0
(4)HDFS2.0
(5)MAP-reduce2.0