大數據和空間限制問題

(一).只用2GB內存在20億個整數中找到出現次數最多的數 【題目】有一個包含20億個全是32位整數的大文件,在其中找到出現次數最多的數。 【分析】通過哈希表對20億個整數進行詞頻統計。哈希表的key是32位的整數,value最壞打算是20億個(4B)所以一條<k,v>記錄是8B。 最多20億條記錄,需要的內存遠超於2GB!一條記錄需要8B存儲,當哈希表的記錄數爲2億個時,至少需要1.6GB的內存
相關文章
相關標籤/搜索