海量數據等概率選取問題

1、問題定義可以簡化如下:在不知道文件總行數的情況下,如何從文件中隨機的抽取一行,並且每行被抽中的概率相等? 首先想到的是我們做過類似的題目嗎?當然,在知道文件行數的情況下,我們可以很容易的用C運行庫的rand()函數隨機的獲得一個行數,從而隨機的取出一行,但是,當前的情況是不知道行數,這樣如何求呢?我們需要一個概念來幫助我們做出猜想,來使得對每一行取出的概率相等,也即隨機。這個概念即蓄水池抽樣(
相關文章
相關標籤/搜索