spark二次排序

通常的二次排序,能夠參考https://www.iteblog.com/archives/1819.html這篇文章,可是他的這種方式有問題。在這塊代碼:html item._2.toList.sortWith(_.toInt<_.toInt) 若是數據量很是大的話,會所有加在到內存中,容易形成內存溢出。web 在spark中能夠使用repartitionAndSortWithinPartitio
相關文章
相關標籤/搜索