大數據分析常用去重算法分析『HyperLogLog 篇』

在上篇文章中,Kyligence 大數據工程師陶加濤爲大家介紹了利用 Roaring Bitmap 來進行精確去重。雖然這種算法能大大地減少存儲開銷,但是隨着數據量的增大,它依然面臨着存儲上的壓力。在本篇文章中將要介紹的 HyperLogLog(下稱 HLL)是一種非精確的去重算法,它的特點是具有非常優異的空間複雜度(幾乎可以達到常數級別)。   HLL 算法需要完整遍歷所有元素一次,而非多次或採
相關文章
相關標籤/搜索