bloom filter

時間 2020-06-29

標籤 bloom filter 简体版

原文原文鏈接

Bloom filter 是由 Howard Bloom 在 1970 年提出的二進制向量數據結構，它具備很好的空間和時間效率，被用來檢測一個元素是否是集合中的一個成員。


結構: 二進制

召回率: 100%
方法: 哈希函數

簡介

Bloom filter 是由 Howard Bloom 在 1970 年提出的二進制向量數據結構，它具備很好的空間和時間效率，被用來檢測一個元素是否是集合中的一個成員。若是檢測結果爲是，該元素不必定在集合中；但若是檢測結果爲否，該元素必定不在集合中。所以Bloom filter具備100%的召回率。這樣每一個檢測請求返回有「在集合內（可能錯誤）」和「不在集合內（絕對不在集合內）」兩種狀況，可見 Bloom filter 是犧牲了正確率和時間以節省空間。

計算方法

編輯

如須要判斷一個元素是否是在一個集合中，咱們一般作法是把全部元素保存下來，而後經過比較知道它是否是在集合內，鏈表、樹都是基於這種思路，當集合內元素個數的變大，咱們須要的空間和時間都線性變大，檢索速度也愈來愈慢。 Bloom filter 採用的是哈希函數的方法，將一個元素映射到一個 m 長度的陣列上的一個點，當這個點是 1 時，那麼這個元素在集合內，反之則不在集合內。這個方法的缺點就是當檢測的元素不少的時候可能有衝突，解決方法就是使用 k 個哈希函數對應 k 個點，若是全部點都是 1 的話，那麼元素在集合內，若是有 0 的話，元素則不在集合內。

優勢缺點

編輯

Bloom filter 優勢就是它的插入和查詢時間都是常數，另外它查詢元素卻不保存元素自己，具備良好的安全性。它的缺點也是顯而易見的，當插入的元素越多，錯判「在集合內」的機率就越大了，另外 Bloom filter 也不能刪除一個元素，由於多個元素哈希的結果可能在 Bloom filter 結構中佔用的是同一個位，若是刪除了一個比特位，可能會影響多個元素的檢測。