每秒2萬條html
一分2*60=120萬git
一小時 120*60=7200萬github
每條按1K計算服務器
72000000*1K=70312.5Mb=68.6645508Gbide
硬盤oop
一個月 69G*24*31=51336G=50Tspa
每數據備份三份: 50T*3=150Thtm
數據冗餘20%: 150*0.2=30T內存
文件系統:3Thadoop
總共硬盤:150+30+3=183T
規劃
20臺服務器
每臺5個硬盤,每一個硬盤2T
每臺內存: 128GB(spark隨計算複雜度對內存需求越高)
每臺:24CPU
參考博客
http://www.itweet.cn/2016/01/25/Hadoop-Disk-Planning/
https://hadoopecosystemtable.github.io/
http://www.aboutyun.com/thread-17211-1-1.html
https://bigdata-ny.github.io/2016/08/21/airbnb-hadoop-hive/
https://yq.aliyun.com/articles/59064
http://www.ha97.com/5673.html