用幾條shell命令快速去重10G數據

試想一下,如果有10G數據,或者更多;怎麼才能夠快速地去重呢?你會說將數據導入到數據庫(mysql等)進行去重,或者用java寫個程序進行去重,或者用Hadoop進行處理。如果是大量的數據要寫入數據庫也不是一件容易的事情,首先你需要開發一個程序將數據寫入數據庫,然後再用數據庫的select distinct或者group by進行去重。如果是一次性的工作,這種方式顯得就比較笨拙了。那麼有沒有更好的
相關文章
相關標籤/搜索