spark學習之pyspark中aggregate()的使用

aggregate():這個函數須要三個zeroValue, seqOp, combOp。zeroValue是初始值,形式是(x,y);seqOp和combOP是兩個方法,其中seqOp方法是對每一個分區操做,而後combOp對每一個分區的結果進行操做。web >>> data=[1,2,3,4,5,6,7,8,9] >>> rdd=sc.parallelize(data,2) #分紅了兩個分區,
相關文章
相關標籤/搜索