Redis HyperLogLog

時間 2019-11-07

原文原文鏈接

關注公衆號：xy的技術圈java

基數計數

在應用系統的開發中，咱們經常會有相似這樣的需求：統計某個網站的UV、用戶搜索網站關鍵詞的數量等等。咱們可使用基數計數來作這個功能。基數計數一般用來統計一個集合中不重複的元素個數。git

在應用程序的數據分析、網絡監控及數據庫優化等等地方都須要基數計數。github

要實現基數計數，最簡單的方式就是使用一個set，把出現的元素add進去，而後計算set的size。但若是數據量較大，使用set就會浪費大量的空間。redis

前面的文章介紹了bitmaps，使用bitmaps也能夠作基數計數。但若是數據量較大，使用bitmaps一樣會有這個問題。若是要統計一億個數據的基數值，大約須要12M內存。若是使用32位的int類型來表明每一個數據，就須要32 * 12約爲381M。算法

可見，使用bitmaps仍是不適用大數據量下的基數計數場景。spring

機率算法

連bitmaps都不合適，那還有更好的方法來實現大數據的基數計數嗎？數據庫

固然有，數學是神奇的。咱們使用一些機率論的數學原理，在必定偏差條件下，能夠高效地估計出基數的近似值。網絡

具體是什麼算法呢？數據結構

LogLog Counting(LLC)被髮明出來解決這個問題，空間複雜度只有log(log(N))。但LLC偏差較大，HyperLogLog Counting(HLL)在LLC的基礎上進行了改進，在一樣空間複雜度狀況下，可以比LLC的基數估計偏差更小。函數

HLL有多強大？redis中實現的HyperLogLog，只須要12K內存，在標準偏差0.81%的前提下，可以統計2^64個數據。

可是，由於HyperLogLog只會根據輸入元素來計算基數，而不會儲存輸入元素自己，因此HyperLogLog不能像集合那樣，返回輸入的各個元素。

HLL的原理

如下內容請謹慎食用

HyperLogLog算法來源於論文《HyperLogLog the analysis of a near-optimal cardinality estimation algorithm》

舉一個例子，假設你拋不少次硬幣，若是拋到正面，就繼續拋；若是拋到反面，就記錄下在這以前連續拋到了多少次正面k，而後開始下一輪。

若是你告訴我，你最多的時候，連續拋了2次正面後就拋到反面了。那我認爲你可能並無拋多少輪，多是3輪或者4輪就會發生這樣的狀況。

但若是你告訴我，你最多的時候，連續拋了10次正面後就拋到反面了，那我認爲你可能拋的輪次比較多，由於連續拋到10次正面的機率是很是小的。那若是要根據這個已知信息估計你總共拋了多少輪硬幣呢？這就是HLL的原理。

HLL背後是一個著名的數學上的機率論原理：伯努利分佈。一樣是上面那個拋硬幣例子，出現正反面的機率都是1/2，一直拋硬幣直到出現正面，記錄下投擲次數k，將這種拋硬幣屢次直到出現正面的過程記爲一次伯努利過程，對於n次伯努利過程,咱們會獲得n個出現正面的投擲次數值k1, k2, k3……kn，其中最大值記爲k_max，能夠用n次實驗中最大的拋擲次數k_max來預估實驗組數量n：有如下公式

n = 2 ^ k_max

具體推導過程有點麻煩，感興趣的朋友能夠下來本身去研究一下。

回到基數統計的問題，咱們須要統計一組數據中不重複元素的個數，集合中每一個元素的通過hash函數後能夠表示成0和1構成的二進制數串，一個二進制串能夠類比爲一次拋硬幣實驗，1是拋到正面，0是反面。

二進制串中從低位開始第一個1出現的位置能夠理解爲拋硬幣試驗中第一次出現正面的拋擲次數k，那麼基於上面的結論，咱們能夠經過屢次拋硬幣實驗的最大拋到正面的次數來預估總共進行了多少次實驗，一樣能夠能夠經過第一個1出現位置的最大值k_max來預估總共有多少個不一樣的數字（總體基數）。

那根據上面的公式，就能夠計算出基數n了。

但這樣偏差仍是有點大，並且只能是2的指數，顯然並不合理。

既然偏差大，那就想辦法下降偏差。LLC的作法是把全部的數分到不一樣的桶中，獲得每一個桶的估計值n1, n2, n3……而後計算它們的幾何平均數。

但這樣偏差仍是有點大，特別是在數據量不大的時候，某個n可能會比較大，會大幅拉昇總體的評論數。好比個人工資是1000元，老闆的工資是10,000元，那咱們工資的幾何平均數就是(1000 + 10,000) / 2 = 50500元。看來我又「被平均」了，我以爲這樣並不公平，不能顯示咱們公司真實的薪資情況。因而咱們使用調和平均數的方式來計算：