Spark Streaming全天候實時top N實現

1. 背景介紹   公司的日誌平臺是經過spark streaming消費kafka上的數據,解析完畢後直接存入到hdfs,而後到了天天凌晨經過pig腳原本對前一天的hdfs上的全量數據進行統計分析,得出前一天的日誌的各項指標。全量的數據量一天經過lzo壓縮後有大概4T,解壓完估計得有40~50T。而後天天計算的指標有十個,有若干個指標是須要計算top n這種,並且pig腳本代碼質量較差,有一些j
相關文章
相關標籤/搜索