spark external DataSource API (外部數據源)

1)  外部數據源產生的背景 每一個spark的app開始於加載數據結束於保存數據,那這個數據保存到哪裏?可以是MySQL可以是Hive等等一些數據存儲的地方。 用戶想要的是方便快速從不同的數據源(json、parquet、rdbms),經過混合處理(json join parquet),再將處理結果以特定的格式(json、parquet)寫回到指定的系統(HDFS、S3)上面去。 基於這樣的需求
相關文章
相關標籤/搜索