Hadoop

有一個文件,大小爲 1T,有沒有可能只用一臺計算機(普通計算機,配置不高,內存 不可能放下該文件)來查找出文件中的重複行? 思路 1: 讀出第一行,然後讀出第二行,比較第一行是否和第二行重複,然後從內存中清除第 二行,再讀入第三行與第一行比較,然後再清除第三行,當第一行與最後一行比較完後, 從第二行開始再與之後的行比較,類似於冒泡排序的思想。 思路 2: 將大文件拆分爲小文件,讀出一行數據,求 h
相關文章
相關標籤/搜索