(2003)GFS --> HDFSweb
(2004)MapReduce --> MapReduce併發
(2006)BigTable --> HBase(Hadoop DataBase)負載均衡
Facebook : HiveQL進行數據分析;框架
淘寶搜索 :Hive自定義篩選;分佈式
eBay :數據倉庫;oop
Twitter :Pig高級數據處理,發現可能認識的人;大數據
Amazon :協同過濾的推薦,及淘寶推薦;優化
Yahoo :pig,垃圾郵件的識別過濾及用戶特徵建模;google
天貓 :hive,推薦系統(廣告聯盟),少許嘗試mahout。6:56spa
擴容能力(Scalable):可靠的存儲和處理PB級數據;
成本低(Economical):廉價機集羣;
高效率(Efficient):併發;
可靠行(Reliable):存儲多個副本;
HDFS 海量存儲(通訊RPC);
2.x比1.x的優化:
NameNodeHA:1.x只有一個,2.x有多個;
federation:
DataNode:有多個塊Block,每一個塊有128M;
NameNode的Metadata記錄位置:
FileName:文件名
replicas:副本數
block_ids:block塊
id2host:id和主機名關係
MapReduce 海量計算:
YARN(Yet Anothor Resource Negotiator):資源調度管理系統;
2臺(機器1+機器2--JDK+Hadoop)運行NameNode(HDFS的老大):HA
NameNode、DFSZKFailoverController.
NameNode、DFSZKFailoverController.
1臺(機器3--JDK+Hadoop)運行ResourceManager(YARN的老大);
ResourceManager
3臺(機器4+機器5+機器6--JDK+Hadoop+Zookeeper)運行DataNode,並安裝ZK(奇數個)
DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。
DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。
DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。
Zookeeper(ZK-2181)是大數據協調管理框架,能夠進行master選舉、負載均衡、分佈式鎖、配置信息維護等;