大數據流的在線Heavy Hitters算法(上篇):基於計數器的方法

Question! 有海量(e.g. 日均千億級別)的訪問日誌流,如何在不要求結果100%精確的前提下,儘量快速地統計出被訪問次數最多的一些域名,以及它們的訪問頻率? Heavy Hitters(頻繁項)以及它衍生出來的Top-K(前K最高頻項)是大數據和流式計算領域非常經典的問題,並且在海量數據+內存有限+在線計算的前提下,傳統的HashMap + Heap-Sort方式幾乎不可行,需要利用更加
相關文章
相關標籤/搜索