記錄一個問題: 有一個10G大小的文件,文件內爲一行一個的整數,給定可以使用內存爲2G.要求統計出現次數最多的數字。.net
一、流式數據處理(這塊後面單獨寫吧,埋坑....)blog
二、分文件處理內存
讀入部分文件,對數值模10.取值相同放入一個文件。而後處理10個文件。統計出現次數最多的。方法
我認爲上面這種方案能夠解決一種狀況。就是文件數值不重複。或者重複較少的狀況統計
假設一種極端狀況。文件內容所有取模值所有相同。或者超過2G就不在適用上面的方法了。而更適合將相同的數字放入同一個文件。數據
狀況不一樣解決方案也不盡相同。沒有銀彈
---------------------
做者:喬帆
來源:CSDN
原文:https://blog.csdn.net/weixin_40596063/article/details/82895458
版權聲明:本文爲博主原創文章,轉載請附上博文連接!文件