Hadoop

時間 2021-01-13

欄目 Hadoop 简体版

原文原文鏈接

有一個文件，大小爲 1T，有沒有可能只用一臺計算機（普通計算機，配置不高，內存不可能放下該文件）來查找出文件中的重複行？思路 1：讀出第一行，然後讀出第二行，比較第一行是否和第二行重複，然後從內存中清除第二行，再讀入第三行與第一行比較，然後再清除第三行，當第一行與最後一行比較完後，從第二行開始再與之後的行比較，類似於冒泡排序的思想。思路 2：將大文件拆分爲小文件，讀出一行數據，求 h

>>阅读原文<<

相關文章

相關標籤/搜索

hadoop+kerberos

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<