一. 最佳實踐算法
數據都存在熱、冷的差別。通常建議把冷數據存放在OSS中,熱數據放在本地HDFS中。晚上00:00-06:00按需運行,運行完成後釋放集羣,節約成本。晚上ECS水位低,比較容易申請到大集羣。架構
服務端會把這些信息存儲在OSS中,再啓動E-MapReduce中的Hive腳本分析這些數據,如:統計pv和uv,再把每一個連接的訪問狀況存儲在RDS中,最後經過報表系統展現。
框架
Hadoop HDFS是一個經歷了長時間考驗且具備高可靠性的數據存儲系統,已經可以實現海量數據的高可靠性存儲。同時基於雲上的特性,也能夠在OSS等服務上進行數據的額外備份,來達到更高的數據可靠性。