蓄水池抽樣基於MapReduce的實現

</pre>    問題:如今有一個很大的數據,假設有幾千萬條但不知道具體有多少條,如何在只遍歷一次的狀況下,隨機取出其中K條數據?<p></p><p>    思路:能夠將此問題抽象爲蓄水池抽樣問題。即,先把讀取到的前K條數據放入列表中,對於第K+1個對象,以K/(K+1)的機率選擇該對象;對於第K+2個對象,以K/(K+2)的機率選擇該對象;以此類推,以K/M的機率選擇第M個對象(M>K)。若是
相關文章
相關標籤/搜索