使用pyspark實現計算Top k

關於Spark和HDFS的安裝這裏暫且不講,只講Spark的使用。python Top K就是要計算一個數組中前k個最大元素。這裏咱們把數據存儲在一個文件中,文件中的沒一行對應的是數據的id和數據的值。其中的每一個id可能會屢次出現。須要計算全部id中對應的出現的值之和最大的k個id。web 文件格式:數組 id1,200 id2,700 id3,450 id1,300 ... 首先使用spark
相關文章
相關標籤/搜索