題目描述
給你一個文件,裏面包含40億個整數,寫一個算法找出該文件中不包含的一個整數, 假設你有1GB內存可用。html
若是你只有10MB的內存呢?算法
解題思路
對於40億個整數,若是直接用int數組來表示的大約要用4010^84B=16GB,超出了內存要求,這裏數組
咱們能夠用bitmap來解決,bitmap基本思想是一位表示一個整數,好比咱們有6個數據:post
1
|
7 3 1 5 6 4
|
假設bitmap容量爲8,當插入7時 bit[7]=1,以此類推測試
bit[3]=1ui
bit[1]=1spa
bit[5]=1.net
……code
bit[4]=1htm
這樣咱們查詢5,只須要查看bit[5]==1側存在,不然不存在。
這樣一個位表明一個數據,那40一個數據大概要4010^8bit = 0.5GB,知足內存要求。
實現細節
首先咱們用int來表示:int bmap[1+N/32]; //N是總數,N=40億,一個int32bit
而後咱們插入一個整數val,要先計算val位於數組bmap中的索引:index = val/32;
好比整數33,index=33/32=1,第33位於數組中的index=1
好比整數67,index=67/32=2,位於數組中index=2
而後在計算在這個index中的位置,由於數組中的每一個元素有32位
33,index=1,在1中的位置爲33%32=1
67,index=2,在2中的位置爲67%32=3
而後就是標識這個位置爲1:
bmap[val/32] |= (1<<(val%32));
33: bmap[1] != (1<<1);//xxxxxx 1 x,紅絲位置被置爲1
67: bmap[2] != (1<<3);//xxxx 1 xxx
代碼
1
2
3
4
5
6
|
void setVal(int val)
{
bmap[val/
32] |= (
1<<(val%
32));
//bmap[val>>5] != (val&0x1F);//這個更快?
}
|
怎樣檢測整數是否存在?
好比咱們檢測33,一樣咱們須要計算index,以及在index元素中的位置
33: index = 1, 在bmap[1]中的位置爲 1,只須要檢測這個位置是否爲1
bmp[1] &(1<<1),這樣是1返回true,否側返回false
67:bmp[2]&(1<<3)
127:bmp[3]&(1<<31)
代碼:
1
2
3
4
5
|
bool testVal(int val)
{
return bmap[val/
32] & (
1<<(val%
32));
//return bmap[val>>5] & (val&0x1F);
}
|
下面是完整測試代碼:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
const
int N = MaxN;
const
int BitLen =
32;
int bmap[
1+N/BitLen];
void setVal(int val)
{
bmap[val/BitLen] |= (
1<<(val%BitLen));
}
bool testVal(int val)
{
return bmap[val/BitLen] & (
1<<(val%BitLen));
}
void funTest()
{
int a[] = {
1,
2,
3,
4,
6,
7};
for (
int i=
0; i<
6; ++i)
{
setVal(a[i]);
}
std::cout << testVal(
5) << std::endl;
return
0;
}
|
如今咱們來看若是內存要求是10MB呢?
這固然不能用bitmap來直接計算。由於從40億數據找出一個不存在的數據,咱們能夠將這麼多的數據分紅許多塊, 好比每個塊的大小是1000,那麼第一塊保存的就是0到999的數,第2塊保存的就是1000 到1999的數……
實際上咱們並不保存這些數,而是給每個塊設置一個計數器。 這樣每讀入一個數,咱們就在它所在的塊對應的計數器加1。
處理結束以後, 咱們找到一個塊,它的計數器值小於塊大小(1000), 說明了這一段裏面必定有數字是文件中所不包含的。而後咱們單獨處理這個塊便可。接下來咱們就能夠用Bit Map算法了。咱們再遍歷一遍數據, 把落在這個塊的數對應的位置1(咱們要先把這個數歸約到0到blocksize之間)。 最後咱們找到這個塊中第一個爲0的位,其對應的數就是一個沒有出如今該文件中的數。)
代碼以下(一個測試的代碼):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
|
const
int N =
1000;
const
int BITLEN =
32;
const
int BLOCK_SIZE =
100;
int Bucket[
1+N/BLOCK_SIZE]={
0};
int BitMap[
1+BLOCK_SIZE/BITLEN] = {
0};
void test()
{
//生成測試數據
freopen(
"test.txt",
"w", stdout);
for (
int i=
0; i<
1000; ++i)
{
if (i ==
127)
{
printf(
"0\n");
continue;
}
printf(
"%d\n", i);
}
fclose(stdout);
//讀入測試數據
freopen(
"test.txt",
"r", stdin);
int Value;
while (scanf(
"%d", &Value) != EOF)
{
++Bucket[Value/BLOCK_SIZE];
//測試數據分段累計
}
fclose(stdin);
//找出累計計數小於BLOCK_SIZE的
int Start=-
1, i;
for (i=
0; i<
1+N/BLOCK_SIZE; ++i)
{
if (Bucket[i] < BLOCK_SIZE)
{
Start = i*BLOCK_SIZE;
break;
}
}
if (i ==
1+N/BLOCK_SIZE || Bucket[N/BLOCK_SIZE]==
0 && i==N/BLOCK_SIZE)
return;
int End = Start + BLOCK_SIZE-
1;
//在不知足的那段用bitmap來檢測
freopen(
"test.txt",
"r", stdin);
while (scanf(
"%d", &Value) != EOF)
{
if (Value >= Start && Value <= End)
//Value必須知足在那段
{
int Temp = Value - Start;
BitMap[Temp/BITLEN] |= (
1<<(Temp%BITLEN));
}
}
fclose(stdin);
//找出不存在的數
freopen(
"re.txt",
"w", stdout);
bool Found =
false;
for (
int i=
0; i<
1+BLOCK_SIZE/BITLEN; ++i)
{
for (
int k=
0; k < BITLEN; ++k)
{
if ((BitMap[i] & (
1<<k)) ==
0)
{
printf(
"%d ", i*BITLEN+k+Start);
Found =
true;
break;
}
}
if (Found)
break;
}
fclose(stdout);
}
|
參考:http://hawstein.com/posts/12.3.html
關於數據的去重這裏有一遍很好的文章是用bitmap來實現: