最初問題:從n個數中隨機選擇m個數(0<=m<=n)。c++
爲了便於描述,能夠將該問題抽象爲:從0-n-1這n個數中隨機選擇m個數。計算機可以提供的隨機數都是僞隨機的,咱們假設計算機提供的僞隨機數爲真正的隨機。算法
0、產生一個隨機數
系統(c/c++)提供的rand函數只有15位,若是不知足要求,須要本身擴展,30位的隨機函數以下:編程
- int BigRand()
- {
- static bool flag=false;
- if(flag==false)
- {
- srand(time(0));
- flag = true;
- }
- return (rand()<<15)+rand();
- }
一、最簡單的解法
每次產生一個0-n-1之間的隨機數,放入一個集合中,直到集合的大小爲m。C++的STL中有set,比較方便:數組
- void GetRandNum_set(int m,int n)
- {
- cout<<__FUNCTION__<<": ";
- set<int> s;
- while(signed(s.size())<m)
- {
- s.insert(RandInt(0,n-1));
- }
- set<int>::iterator i=s.begin();
- while(i!=s.end())
- cout<<*i++<<" ";
- cout<<endl;
- }
上面的代碼工做沒有問題,可是當m接近n且很大時,最後幾個數的產生將會很困難。由於會生成大量的重複的數。函數
如何不產生重複的數呢?spa
二、最多n次的解法
假設當前剩餘m個數要選,.net
從0開始到n-1這n個數,以m/n的機率選中選中0:總共n個數,要選出m個;設計
對於1:若是選中0,則以(m-1)/(n-1)的機率選擇1(總共n-1個,要選m-1個);若是沒選中,則以m/(n-1)的機率選(總共n-1個,要選m個);blog
……ip
對於i:總共還剩下n-i個,還須要選m個,那麼選中的機率就是m/(n-i)。
沒選中一個,剩餘要選的數就減小一個。
所以代碼以下:
- void GetRandNumSorted(int m,int n)
- {
- cout<<__FUNCTION__<<": ";
- if(m<0 || m>=n) return;
- for(int i=0; m!=0 && i<n; i++)
- {
- if(BigRand()%(n-i)<m)
- {
- cout<<i<<" ";
- m--;
- }
- }
- cout<<endl;
- }
顯然,這時輸出是從小到大按序選擇的。
其中:if(BigRand()%(n-i)<m) 的機率爲:m/(n-i)。
能夠分析,每一個數選中的機率都是m/n:
數 選中機率
0: m/n
1: m/n * (m-1)/(n-1) + (1-m/n) * m/(n-1) =m/n;
2: 好多項相加,這裏就不寫了。。。
……
三、不按序輸出
若是要求不按序輸出,有兩種解決辦法。
一種是將上面的結果保存起來,而後再打亂保存的數組。
還有一種就是直接產生m個隨機數。
先看直接產生m個隨機數,其實就是先從0-n-1中隨機選擇一個,做爲第一個;而後再從剩下的n-1個數中隨機選擇一個做爲第二個……直到選出第m個。這就是所謂「完美洗牌」或者打亂數組。
- void GetRandNum(int m, int n)
- {
- cout<<__FUNCTION__<<": ";
- int * p= (int*)malloc(sizeof(int)*n);
- for(int i=0;i<n;i++)
- p[i] = i;
-
- for(int i=0; i<m; i++)
- {
- swap(p[i],p[RandInt(i,n-1)]);
- cout<<p[i]<<" ";
- }
- cout<<endl;
- free(p);
- }
這裏須要一個函數,可以隨機產生必定範圍內的數:
- int RandInt(int l, int u)
- {
- l = l<u?l:u;
- u = l<u?u:l;
- return BigRand()%(u-l+1) + l;
- }
這種算法的問題是,若是n很大,m很小,對輔助空間的浪費太嚴重。由於開闢了那麼大的空間,實質只用了不多一部分。
另外一種就是先按序隨機選擇m個數,而後再打亂:
- void GetRandNum2(int m, int n)
- {
- cout<<__FUNCTION__<<": ";
- int * p= (int*)malloc(sizeof(int)*m);
- int tm=m;
- for(int i=0,j=0; m!=0 && i<n; i++)
- {
- if(BigRand()%(n-i)<m)
- {
- p[j++]=i;
- m--;
- }
- }
- for(int i=0; i<tm; i++)
- {
- swap(p[i],p[RandInt(i,tm-1)]);
- cout<<p[i]<<" ";
- }
- cout<<endl;
- free(p);
- }
四、隨機讀取文件中的一行
在不知道文件總行數的狀況下,隨機讀取文件中的一行。
最直觀的作法就是,先讀取一次文件,肯定總行數n。而後產生一個1-n的隨機數m,再讀取第m行。顯然這是可行的,可是問題是若是文件很大,平均要遍歷文件1.5次。效率很低。
並且若是文件在不算增加,那麼這個方法就不行了。
經過上面的算法的啓發,其實也能夠只讀取一次。
首先讀取第一行,若是隻有一行,就結束了,設爲line;
若是有第2行,那麼以1/2的機率替換line;這時一、2兩行被選中的機率都是1/2.
若是有第3行,那麼以1/3的機率替line;則第3行被選中的機率是1/3,一、2兩行被選中的機率則都是1/2*2/3=1/3.
……
第i行,以1/i的機率替換line。
直到文件結束。
- void GetOneLineRand(const char *fname)
- {
- cout<<__FUNCTION__<<": ";
- string line,str_save;
- ifstream ins(fname);
- int cnt=1;
- while(getline(ins,line))
- {
- if(cnt==1)
- {
- str_save = line;
- }
- else
- {
- if(RandInt(1,cnt)==1)
- str_save = line;
- }
- cout<<cnt<<" : "<<line<<endl;
- cnt++;
- }
- cout<<"rand line : "<<str_save<<endl;
- ins.close();
- }
這裏的if(RandInt(1,cnt)==1)裏的1,能夠是[1,cnt]中任意一個值,機率均爲1/cnt。
五、隨機讀取k行
先去讀k行,保存在一個數組中(假設文件至少有k行);
而後每讀取一行,都以k/n的機率替換數組中的任意一行,其中n爲當前總共讀取的行數。
- void GetRandLines(const char *fname, int k)
- {
- cout<<__FUNCTION__<<": ";
- string * kstr = new string[k], line;
- ifstream ins(fname);
- int cnt=1;
- while(cnt<=k)
- {
- if(getline(ins,kstr[cnt-1])) cnt++;
- else break;
- }
- while(getline(ins,line))
- {
- if(RandInt(1,cnt)<=k)
- {
- swap(kstr[RandInt(1,k)-1],line);
- }
- cnt++;
- }
-
- for(int i=0; i<k ;i++)
- {
- cout<<kstr[i]<<endl;
- }
- cout<<endl;
- delete[] kstr;
- ins.close();
- }
其餘問題請參考《編程珠璣-第12章》。
轉載出處:http://blog.csdn.net/fastsort/article/details/10162871