數據量估計

每秒2萬條html


一分2*60=120萬git


一小時 120*60=7200萬github



每條按1K計算服務器


72000000*1K=70312.5Mb=68.6645508Gbide


硬盤oop


一個月 69G*24*31=51336G=50Tspa


每數據備份三份: 50T*3=150Thtm


數據冗餘20%: 150*0.2=30T內存


文件系統:3Thadoop


總共硬盤:150+30+3=183T


規劃 


20臺服務器


每臺5個硬盤,每一個硬盤2T


每臺內存: 128GB(spark隨計算複雜度對內存需求越高)


每臺:24CPU



參考博客


http://www.itweet.cn/2016/01/25/Hadoop-Disk-Planning/


https://hadoopecosystemtable.github.io/


http://www.aboutyun.com/thread-17211-1-1.html


https://bigdata-ny.github.io/2016/08/21/airbnb-hadoop-hive/



https://yq.aliyun.com/articles/59064

















http://www.ha97.com/5673.html

相關文章
相關標籤/搜索