使用Spark處理二次排序問題

現在有這樣一個需求: 有這樣一份log日誌記錄了某時間戳下某個設備訪問網站時產生的上行流量、下行流量。 時間戳/設備號/上行流量/下行流量 現在想統計出每個設備號的最早訪問時間及總的上行流量、下行流量,最後打印出10個按上行流量、下行流量排序的最多的10個記錄。 思路:涉及到排序問題,我們可以使用Spark的sortByKey算子,我們可以自定義排序方式,實現Comparable接口即可;另外sp
相關文章
相關標籤/搜索