RDD編程(pyspark)

一.建立RDD數組 兩種方式:緩存 第一種:讀取一個外部數據集。從本地文件加載數據集,或者從HDFS文件系統、HBase、Cassandra、Amazon S3等外部數據源中加載數據集。Spark能夠支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是一個由二進制序列化過的key/value的字節流組成的文本存儲文件)和其餘符合Hadoop InputForm
相關文章
相關標籤/搜索