Pig: Distincthtml
Distinct主要是去掉重複的記錄,是對條記錄進行去重,而不是對單個某個schema。mysql
daily = load 'NYSE_daily' as (exchange:chararray, symbol:chararray); uniq = distinct daily
它須要收集類似的記錄在一塊,判斷這些記錄是不是重複的。個人理解是:在reduce收集類似的記錄在一塊,充分利用了combiner去掉重複的記錄,在map裏面進行刪除。(有點奇怪的理解)c++
等價於SQL中的:sql
select distinct x
若是想對某個schema進行distinct,能夠先選出來。spa
SQL的實現原理:.net
http://blog.codinglabs.org/articles/theory-of-mysql-index.htmlunix
C++:code
http://man.chinaunix.net/develop/c&c++/c/c.htm#_Toc520634042htm