Spark Streaming全天候實時top N實現

時間 2019-12-04

原文原文鏈接

1. 背景介紹公司的日誌平臺是經過spark streaming消費kafka上的數據，解析完畢後直接存入到hdfs，而後到了天天凌晨經過pig腳原本對前一天的hdfs上的全量數據進行統計分析，得出前一天的日誌的各項指標。全量的數據量一天經過lzo壓縮後有大概4T，解壓完估計得有40~50T。而後天天計算的指標有十個，有若干個指標是須要計算top n這種，並且pig腳本代碼質量較差，有一些j

>>阅读原文<<