pyspark裏面RDD的操做

時間 2019-12-11

標籤 pyspark 裏面 rdd 欄目 Spark 简体版

原文原文鏈接

RDD類型:html 1. 並行集合(Parallelized Collections): 來自於分佈式化的數據對象,好比用戶本身鍵入的數據程序員 2. 文件系統數據集: Hadoop Datasets 或文本文件,好比經過SparkContext.textFile()讀取的數據面試由於RDD的倆種不一樣類型,因此咱們使用文件有不一樣方式算法 1. 並行化集合是經過調用

>>阅读原文<<