2014-08-08

Pig: Distincthtml

Distinct主要是去掉重複的記錄,是對條記錄進行去重,而不是對單個某個schema。mysql

daily = load 'NYSE_daily' as (exchange:chararray, symbol:chararray);
uniq = distinct daily

它須要收集類似的記錄在一塊,判斷這些記錄是不是重複的。個人理解是:在reduce收集類似的記錄在一塊,充分利用了combiner去掉重複的記錄,在map裏面進行刪除。(有點奇怪的理解)c++

等價於SQL中的:sql

select distinct x

若是想對某個schema進行distinct,能夠先選出來。spa

 

 

 

 

 

SQL的實現原理:.net

http://blog.codinglabs.org/articles/theory-of-mysql-index.htmlunix

C++:code

http://man.chinaunix.net/develop/c&c++/c/c.htm#_Toc520634042htm

本站公眾號
   歡迎關注本站公眾號,獲取更多信息