Spark編程指南

一、概述 在高層的角度上看,每個Spark應用都有一個驅動程序(driver program)。驅動程序就是運行用戶的main主程序並在集羣上執行各類並行操做的程序。Spark中的一個主要的抽象概念就是彈性分佈數據集(resilient distributed dataset,RDD),RDD是分佈在多個節點構成的集羣上的元素的集合,並支持並行操做。RDD能夠由Hadoop的分佈式文件系統(或其餘
相關文章
相關標籤/搜索