使用AWS Glue進行 ETL 工作

數據湖 數據湖的產生是爲了存儲各種各樣原始數據的大型倉庫。這些數據根據需求,進行存取、處理、分析等。對於存儲部分來說,開源版本常見的就是 hdfs。而各大雲廠商也提供了各自的存儲服務,如 Amazon S3,Azure Blob 等。 而由於數據湖中存儲的數據全部爲原始數據,一般需要對數據做ETL(Extract-Transform-Load)。對於大型數據集,常用的框架是 Spark、pyspa
相關文章
相關標籤/搜索