python語言spark基礎方法總結(Spark快速大數據分析)(下)

(4)二元組操做(key-value鍵值對操做)函數 開始:建立Pair RDD。就是(key,value)這樣的二元組。測試 (以鍵值對集合[(1,2),(3,4),(3,6)]爲例)spa reduceByKey():合併具備相同鍵的值。傳入一個有兩個形參的函數,處理過程:進入一條數據,根據key值hash()到一個分區內,分區內若是有其它或以前合併後的元素,調用函數處理兩個元素的value值
相關文章
相關標籤/搜索