1, 使用hive標記random:(若是是mr,就本身標記random值)
use ps;
set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;
insert overwrite directory "*"
select url, count(1), min(link_found_time),
rand()
from entry
where *='20151106'
group by url;
2, 數據抽樣:
在各個分區各使用小頂推實現top-N,
3, 獲得top-N
TopN:使用小頂堆實現。