Spark取TopN問題

數據處理中, 常常會遇到取TopN的問題. 在Spark中,取TopN有以下的方法:java 生成rdd 分佈式 讀取數據源的數據並轉爲rdd.code val rdd = sc.textFile() 分區ci 將rdd劃分分區,分區的個數根據實際的數據量和計算集羣機器的數量以及核心數肯定.rem val partitionedRDD = rdd.coalesce(partitions) kv變換
相關文章
相關標籤/搜索