大數據處理面試題

針對求多個數據中出現最多的Top(K) 數據重複率高 首先看看數據重複率,若重複率很高,能夠直接在內存中將數據存進HashMap,而後利用最大堆求出出現次數最多的K個數據。web 數據重複率低 化大爲小,hash分割文件 將大文件用hash劃分爲多個小文件,若是小文件還超出了所需內存怎麼辦?沒事,再對其進行hash,將其分爲更多的小文件。若是屢次hash文件大小仍然超出內存,就不用管它了,由於這說
相關文章
相關標籤/搜索