JavaSpark-RDD編程-常見操做、持久化、函數傳遞、reduce求平均

RDD是Spark的核心抽象,全稱彈性分佈式數據集(就是分佈式的元素集合)。Spark中對數據的全部操做無外乎建立RDD、轉化已有RDD和調用RDD的操做進行求值。Spark 會自動將 RDD 中的數據分發到集羣上,並將操做並行化執行 RDD在抽象上來講是一種不可變的分佈式數據集合(外部文本文件是在建立RDD時自動被分爲多個分區)。它是被分爲多個分區,每一個分區分佈在集羣的不一樣節點(自動分發)j
相關文章
相關標籤/搜索