AWS之Glue使用方法

Glue是AWS的雲上ETL工具,核心是Spark,查詢也是先獲取數據源的元數據,再通過元數據溯源數據。 本文示範使用Glue把數據從RDS抽到redshift的操作 總體步驟: 1.連接數據源 2.建立爬網程序 3.運行爬網程序生成元數據表 4.建立作業 5.運行作業 (再後面還可建立工作流程實現作業流,本文未涉及) 建立連接 連接可以是(半結構化)文件,和各種數據庫,和kafka 圖中的「數據
相關文章
相關標籤/搜索