JavaSpark-編程進階-數值RDD管道基於分區操做

數值RDD的操做 Spark對包含數值數據的RDD提供了一些描述性的統計操做 Spark的數值操做是經過流式算法實現的,容許每次一個元素的方式構建模型。這些統計數據都會在調用stats()時經過一次遍歷數據計算出來,並以StatsCounter對象返回 count() mean():平均數 sum() max() min() variance():方差 sampleVariance():採樣中計算
相關文章
相關標籤/搜索