網絡測量中基於Sketch方法的簡單介紹

時間 2019-12-07

標籤網絡測量基於 sketch 方法簡單介紹欄目系統網絡简体版

原文原文鏈接

Sketch介紹

爲何要用Sketch

網絡流主要根據五元組、主機地址、包的大小來分類。在網絡中存在各類各樣的包，若是按照上述分類方法，對每一種包都分配一個計數器來儲存，雖然測量準確，那麼存放計數器的空間開銷會很是大。因此使用哈希的方法，根據哈希值的範圍來肯定的所需的存儲空間，各類包根據哈希值再次歸類，能夠大大減小存儲空間。這樣使用哈希來估計流的方法稱爲Sketch-based方法。

Count-min sketch

如何處理包

使用哈希的方法會產生衝突，多個種類的包哈希到同一個桶內，那麼這個桶的計數值就會偏大，爲了減小偏差，設計了count-min sketch
設置多個哈希函數，開闢一個二維地址空間，包通過不一樣哈希函數的處理，獲得對應的哈希值，而這個哈希值就是sketch（概要）。這些哈希值可能產生衝突，多個種類的包可能有相同的哈希值，則根據哈希值來肯定包出現的次數則會偏大，因此設立多個哈希函數，取最小的哈希值，則最接近實際包數據。

count-min sketch 某種實現

class CountMinSketch {
    long estimators[][] = new long[d][w]    // d and w are design parameters
    long a[] = new long[d]
    long b[] = new long[d]
    long p      // hashing parameter, a prime number. For example 2^31-1
 
    void initializeHashes() {  //初始化hash函數family,不一樣的hash函數中a,b參數不一樣
        for(i = 0; i < d; i++) {
            a[i] = random(p)    // random in range 1..p
            b[i] = random(p)
        }
    }
 
    void add(value) {
        for(i = 0; i < d; i++)
            estimators[i][ hash(value, i) ]++ //簡單的對每一個bucket經行疊加
    }
 
    long estimateFrequency(value) {
        long minimum = MAX_VALUE
        for(i = 0; i < d; i++)
            minimum = min(  //取出最小的估計值
                minimum,
                estimators[i][ hash(value, i) ]
            )
        return minimum
    }
 
    hash(value, i) {
        return ((a[i] * value + b[i]) mod p) mod w  //hash函數,a,b參數會變化
    }
}