大數據之hadoop面試題2

2.7.  用mapreduce來實現下面需求? 如今有10個文件夾,每一個文件夾都有1000000個url.如今讓你找出top1000000url。 方法一: 運用2個job,第一個job直接用filesystem讀取10個文件夾做爲map輸入,url作key,reduce計算url的sum, 下一個job map用url做key,運用sum做二次排序,reduce中取top10000000 1
相關文章
相關標籤/搜索