談談BitSet的缺點

時間 2019-11-12

標籤談談 bitset 缺點简体版

原文原文鏈接

主要談談BitSet的不足，而後重點說明開源Lucene的SparseFixedBitSet是如何解決的。數組

BitSet的優勢在於節省存儲空間，好比有10000個正整數範圍從0-9999，底層使用byte數組方式存儲大約佔用1250個字節，若是使用整形數組存儲大約佔用4*10000=40000個字節，如此節省了大約32倍的空間。優化

若是有100個正整數，但數值範圍在0-100000000之間，其中最大值爲99999999，這個時候用BitSet存儲將佔用12500000個字節，而用整形數組存儲大約佔用100*4=400個字節，所以BitSet存儲稀疏數據的時候反而是浪費空間的，解決的方法是使用稀疏BitSet，以Lucene的SparseFixedBitSet爲例：索引

（1）首先將存儲空間按照4096進行劃分，即數值範圍0-4095的爲一組、4096-8191的爲一組等等。it

SparseFixedBitSet中開闢了二維數組long[][]進行存儲,數組的第一個下標表示組ID，好比1000的組ID=1000/4096=0。方法

（2）數組的第二個下標表示數值所在的數據塊ID，好比在原始的bitset中（底層用long數組）1000的數據塊ID=1000/64=15。這裏的意思是同樣的，但表示的方法不一樣，也是最最關鍵的地方！很明顯1000在數組的第二個下標中的位置必定不是15，否則費了這麼大勁等於沒優化，SparseFixedBitSet另外開劈了一個索引是用一維數組long[]表示的，數組下標是數值的組ID與二維數組的第一個下標同樣的意思，long值記錄的是1000的數據塊ID=15(注意是按位進行存儲的indexValue |=1<<15,因爲1個long值能夠表示64個數據塊，每一個數據塊的long能夠存儲64個數值正好64*64=4096，這就是爲何存儲空間按照4096劃分的緣由。)，因爲只有1個數據塊，因此數據塊ID被變換成0，若是來了一個新數值800，它的數據塊ID=800/64=12即indexValue |=1<<12，此時有兩個數據塊了，原來數據塊ID=15的被變換成1，數據塊ID=12的被變換成0，再來一個新數據600的時候indexValue |=1<<9，原來數據塊ID=15的被變換成2，數據塊ID=12的被變換成1，數據塊ID=9的被變換成0。總結

(3)將上面的話用代碼總結一下：數據

long[] index;二維數組

long[][] bits;底層

1000->index[0] |= 1<<15 ; bits[0][0] |=1<<1000;index

800 -> index[0] |=1<<12 ; bits[0][0] |=1<<800; bits[0][1] |=1<<1000;

600 -> index[0] |=1<<9 ; bits[0][0] |=1<<600; bits[0][1] |=1<<800; bits[0][2] |=1<<1000;

所以數據塊ID=index中當前位後面1的個數：1000時index=00000000_00000000_00000000_00000000_00000000_00000000_01000000_00000000,因此1000的數據塊ID=0；

800時index=00000000_00000000_00000000_00000000_00000000_00000000_01001000_00000000,因此1000的數據塊ID=1，800的數據塊ID=0；

600時index=00000000_00000000_00000000_00000000_00000000_00000000_01001001_00000000,因此1000的數據塊ID=2，800的數據塊ID=1；600的數據塊ID=0；

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。