hadoop集羣在互聯網企業的應用(15)

Hadoop集羣在互聯網企業的應用node

1. 京東商城數據庫

(1) 源起:爲pop商家進行日誌分析服務安全

(2) 瓶頸服務器

性能瓶頸:採用Oracle RAC(2節點),IBM小型機,因爲數據量極大,沒法知足時效要求架構

成本瓶頸:小型機再進行高配和節點擴展,價格太貴運維

(3) Hadoop集羣做爲解決方案分佈式

20多個節點的hadoop集羣oop

數據定時從收集服務器裝載到hadoop集羣(週期爲天極或小時級)性能

數據通過整理(預處理)後放進數據倉庫系統,數據倉庫是基於hive架構的,使用Hive的主要緣由是技術人員基本都是基於Oracle數據庫的技能,因爲Hive支持SQL查詢,於是技能能夠平穩過渡.net

數據倉庫查詢統計的結果會被導到hbase,而後和應用進行鏈接,應用捕魚hive直接鏈接的緣由,是基於效率的考慮。導出數據到hbase由自行開發的一段c程序完成

應用即portal經過API與hbase鏈接獲取數據

(4) 遇到的挑戰

clip_image002

(5) 心得體會

clip_image004

(6) 部門結構

clip_image006

2.Hadoop在淘寶和支付寶的應用

(1)

clip_image008

(2)對hadoop源起的修改

改進Namenode單點問題

增長安全性

改善Hbase的穩定性

改進反哺Hadoop社區

(3)管理模式

集團統一管理

Hadoop運維團隊

Hadoop開發團隊

數據倉庫團隊(Hive)

(4)準實時的流數據處理技術

clip_image010

(5)淘寶數據魔方

clip_image012

(6) 架構圖

clip_image014

clip_image016

clip_image018

clip_image020

clip_image022

clip_image024

clip_image026

clip_image028

clip_image030

(7)量子恆道

clip_image032

(8)oceanbase

clip_image034

clip_image036

總體數據分佈

clip_image038

數據演進過程

clip_image040

clip_image042

clip_image044

clip_image046

3.Hadoop在百度的應用

(1)

clip_image048

(2)挑戰

clip_image050

(3)分佈式計算2.0

clip_image052

(4)HDFS2.0

clip_image054

clip_image056

clip_image058

(5)MAP-reduce2.0

clip_image060

clip_image062

相關文章
相關標籤/搜索