top-N 抽樣

 

 

 

 
1, 使用hive標記random:(若是是mr,就本身標記random值)
use ps;
set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;
 
insert overwrite directory "*"
select url, count(1), min(link_found_time), rand()
from entry
where *='20151106'
group by url;
 
2, 數據抽樣:
在各個分區各使用小頂推實現top-N,
 
3, 獲得top-N
TopN:使用小頂堆實現。
相關文章
相關標籤/搜索