pyspark裏面RDD的操做

RDD類型:html     1. 並行集合(Parallelized Collections): 來自於分佈式化的數據對象,好比用戶本身鍵入的數據 程序員     2. 文件系統數據集: Hadoop Datasets 或文本文件,好比經過SparkContext.textFile()讀取的數據面試 由於RDD的倆種不一樣類型,因此咱們使用文件有不一樣方式算法     1. 並行化集合是經過調用
相關文章
相關標籤/搜索