spark 基礎二數據讀取與保存

時間 2021-01-02

原文原文鏈接

spark 本身基於Hadoop生態圈構建，可以通過hadoop mapreduce框架的InputFormat 和OutputFormat 接口訪問數據，大部分的文件格式與存儲系統如S3、HDFS、Cassandra、HBase等都支持這種接口 spark會根據文件擴展名選擇對應處理方式 1讀取/保存文本文件 textFIle()讀取一個文本文件，生成RDD，輸入的每一行成爲RDD中的一個元素

>>阅读原文<<