算法-海量數據處理

海量數據處理 1. 散列分治 對於海量數據,由於沒辦法將其一次性裝入內存進行處理,不得不將其通過散列映射的方法分割成相應的小塊數據,然後再對各個小塊數據通過hash_map進行統計或其他操作。 1.1 尋找 Top K 問題 提取出某日訪問百度次數最多的那個IP 解決問題三個步驟: 分而治之/散列映射。現將該日訪問的IP全部提取出來,逐個寫入到一個大文件中,然後採取散列映射的方式如(hash(IP
相關文章
相關標籤/搜索